3740753 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: AOCP
Orgão: MPE-RS

Provas:

Técnico do Ministério Público - Informática
Provas ×

BI: Business IntelligenceData Warehouse

Sobre as etapas do processo de ETL (Extract, Transform, Load), informe se é verdadeiro (V) ou falso (F) o que se afirma a seguir e assinale a alternativa com a sequência correta.

( ) A etapa de extract envolve a captura de dados de diversas fontes, como bancos de dados, arquivos CSV (Comma-Separated Values), APIs (Application Programming Interfaces), entre outros.

( ) A etapa de transform envolve a inserção ou atualização dos dados em um destino, como um banco de dados, data warehouse ou data lake.

( ) A etapa de load envolve limpeza, formatação, agregação, conversão ou enriquecimento dos dados.

Provas

Questão presente nas seguintes provas

3740751 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: AOCP
Orgão: MPE-RS

Provas:

Técnico do Ministério Público - Informática
Provas ×

BI: Business Intelligence

O MPRS está implementando uma solução de Business Intelligence (BI) para aprimorar a análise de dados relativos a processos e ações judiciais, a fim de apoiar a tomada de decisões estratégicas e operacionais. O técnico de informática é responsável pela implantação e manutenção dessa solução, com o objetivo de estruturar os dados de forma eficiente e facilitar a consulta por diferentes departamentos e usuários. Como parte do projeto, foi adotada a modelagem multidimensional para organizar os dados relativos aos processos judiciais, incluindo informações sobre os tipos de ações, os advogados envolvidos, as decisões tomadas e os tempos de tramitação. As dimensões incluem “Processo” (com subcategorias como “Tipo de Ação”, “Status”, “Data de Abertura”), “Advogado” (com subcategorias como “Nome”, “OAB”, “Especialização”) e “Data” (com subcategorias como “Ano”, “Mês”, “Dia”). As medidas incluem a quantidade de processos, o tempo médio de tramitação e o número de decisões tomadas. Com a estrutura multidimensional, o MPRS poderá analisar os dados de forma eficiente, por exemplo, comparando o tempo de tramitação de processos entre diferentes tipos de ação ou avaliando a produtividade de advogados em relação aos processos que envolvem suas especializações.

Nesse caso, qual estrutura multidimensional está sendo implementada pelo MPRS para organizar e analisar os dados dos processos de acordo com o exposto?

Provas

Questão presente nas seguintes provas

3737322 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FCC
Orgão: SEFAZ-PI

Provas:

Analista do Tesouro Estadual - Geral
Provas ×

BI: Business IntelligenceData Warehouse

Uma Secretaria da Fazenda está implementando um Data Warehouse para aprimorar a análise histórica de dados fiscais e otimizar a tomada de decisões estratégicas. A melhor prática para garantir a qualidade dos dados e a eficiência das consultas é

A

implementar um pipeline de ETL estruturado, aplicando técnicas de limpeza, agregação e conformidade dos dados antes do carregamento no Data Warehouse, para assegurar a integridade referencial, a consistência semântica e a performance das consultas analíticas.

B

priorizar um modelo ELT (Extract, Load, Transform) em vez de ETL, pois carregar os dados diretamente no Data Warehouse antes da transformação proporciona maior flexibilidade para ajustes futuros e evita a perda de informações relevantes.

C

modelar a estrutura do Data Warehouse exclusivamente com tabelas de fato, pois elas armazenam os eventos principais e eliminam a necessidade de tabelas dimensionais, otimizando o armazenamento e a posterior análise.

D

projetar a modelagem dimensional garantindo que a funcionalidade de drill up permita explorar os dados em níveis de detalhamento cada vez mais específicos e que a funcionalidade de drill down agregue informações para gerar análises mais resumidas e sintéticas.

E

evitar processos de carga periódica no Data Warehouse e utilizar prioritariamente ETL em tempo real, garantindo que todas as análises sejam feitas com base em snapshots de dados mais recentes e relevantes.

Provas

Questão presente nas seguintes provas

3737312 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FCC
Orgão: SEFAZ-PI

Provas:

Analista do Tesouro Estadual - TI
Provas ×

BI: Business IntelligenceData Warehouse

Um benefício específico da modelagem multidimensional para órgãos de controle governamental é a

Provas

Questão presente nas seguintes provas

3737307 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FCC
Orgão: SEFAZ-PI

Provas:

Analista do Tesouro Estadual - TI
Provas ×

Big Data

Uma Analista de uma Secretaria da Fazenda está esclarecendo à sua equipe a respeito do framework Hadoop, explicando que o principal benefício da sua aplicação na análise de dados fiscais pela Secretaria é a

Provas

Questão presente nas seguintes provas

3737147 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FCC
Orgão: SEFAZ-PI

Provas:

Agente de Tributos da Fazenda Estadual
Provas ×

BI: Business IntelligenceData Warehouse

No contexto da modelagem dimensional, uma Secretaria da Fazenda deseja analisar os atendimentos realizados para otimizar seus serviços e melhorara satisfação dos cidadãos. Os dados disponíveis incluem informações sobre atendimentos, cidadãos, servidores e datas.
As tabelas relevantes são:
- Tabela de Fatos (Atendimentos): Contém informações sobre cada atendimento individual, como ID do atendimento, ID do cidadão, ID do servidor, ID da data, tipo de atendimento e tempo de atendimento.
-Tabela de Dimensão (Cidadãos): Contém informações sobre os cidadãos, como ID do cidadão, nome, idade, gênero e município.
- Tabela de Dimensão (Servidores): Contém informações sobre os servidores, como ID do servidor, nome, cargo e setor.
- Tabela de Dimensão (Datas): Contém informações sobre as datas, como ID da data, data completa, dia da semana, mês e ano.
Descreve corretamente a relação entre as tabelas de fato e as tabelas de dimensões nesse contexto:

A

A tabela de fatos (Atendimentos) contém as métricas de atendimento (tempo de atendimento), enquanto as tabelas de dimensão (Cidadãos, Servidores, Datas) contêm os atributos descritivos.

B

A tabela de fatos (Atendimentos) e as tabelas de dimensões (Cidadãos, Servidores, Datas) são independentes e não possuem nenhuma relação entre si.

C

A tabela de fatos (Atendimentos) contém apenas dados descritivos sobre os cidadãos atendidos, enquanto as tabelas de dimensão (Cidadãos, Servidores, Datas) contêm as métricas de tempo de atendimento.

D

A tabela de fatos (Atendimentos) contém informações sobre os tipos de atendimento, enquanto as tabelas de dimensão (Cidadãos, Servidores, Datas) contêm os tempos médios de atendimento.

E

A tabela de fatos (Atendimentos) e as tabelas de dimensões (Cidadãos, Servidores, Datas) contêm apenas dados descritivos sobre os servidores e cidadãos.

Provas

Questão presente nas seguintes provas

3736456 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesPLN: Processamento de Linguagem Natural

Uma plataforma de e-commerce deseja analisar automaticamente as avaliações deixadas pelos clientes nos produtos para determinar se são positivas ou negativas. Para isso, a equipe de ciência de dados está treinando um modelo de aprendizado de máquina para análise de sentimentos. Dado que as avaliações são textos não estruturados, a equipe experimentou diferentes métodos de representação vetorial para transformar os textos em formatos que o modelo pode processar. Após testar diferentes abordagens, eles obtiveram os seguintes resultados em um modelo de classificação de sentimentos:

Representação Vetorial	Acurácia nos Dados de Treinamento	Acurácia nos Dados de Teste
Bag of Words (BoW)	95%	70%
TF-IDF	94%	73%
Word2Vec (CBOW)	90%	80%
BERT (Transformers)	89%	88%

Com base nos resultados apresentados, assinale a alternativa que descreve a melhor escolha de representação vetorial para este problema e sua justificativa.

A

Bag of Words é a melhor escolha, pois obteve a maior acurácia nos dados de treinamento, garantindo que o modelo tenha aprendido melhor os padrões do conjunto de dados.

B

TF-IDF é superior às outras técnicas, pois atribui pesos mais altos às palavras raras e, por isso, obteve um pequeno ganho de acurácia nos dados de teste em comparação ao BoW.

C

Word2Vec (CBOW) é inferior ao BoW e ao TF-IDF, pois não captura bem as características estatísticas das palavras, o que resulta em modelos menos precisos para tarefas de classificação de sentimentos.

D

Bag of Words e Word2Vec devem ser combinados para obter um modelo híbrido, pois BoW traz alta acurácia e Word2Vec melhora a generalização, compensando as fraquezas de cada abordagem.

E

BERT (Transformers) é a melhor escolha, pois teve desempenho mais equilibrado entre os dados de treinamento e teste, indicando que o modelo não está sofrendo de sobreajuste e captura melhor o contexto do texto.

Provas

Questão presente nas seguintes provas

3736454 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAvaliação de ModelosOverfitting e Underfitting

Em aprendizado de máquina, underfitting (subajuste) e overfitting (sobreajuste) são problemas que afetam o desempenho dos modelos. Considerando as definições apresentadas, assinale a alternativa que descreve a diferença entre esses dois problemas.

A

Underfitting ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, enquanto overfitting ocorre quando o modelo não aprende o suficiente e generaliza bem para novos dados.

B

Overfitting acontece quando o modelo é muito simples e não consegue capturar padrões nos dados, enquanto underfitting ocorre quando o modelo é muito complexo e memoriza os dados de treinamento.

C

Underfitting ocorre quando o modelo é muito simples e não consegue capturar padrões nos dados, enquanto overfitting ocorre quando o modelo memoriza os dados de treinamento e tem baixo desempenho em novos dados.

D

Underfitting e overfitting são problemas opostos, mas ambos ocorrem apenas quando os dados de treinamento contêm ruídos ou inconsistências.

E

Underfitting e overfitting são sinônimos e indicam que um modelo está generalizando mal os dados de teste, independentemente da complexidade do modelo.

Provas

Questão presente nas seguintes provas

3736447 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Big Data

Uma empresa multinacional lida com grandes volumes de dados provenientes de diversas fontes, incluindo bancos de dados transacionais, sensores IoT, logs de servidores e redes sociais, envolvendo dados estruturados e não estruturados. Durante o processo de armazenamento e recuperação de dados, a organização enfrenta desafios de desempenho e consistência.
Considerando o cenário descrito, assinale a alternativa que apresenta a abordagem mais adequada para otimizar a recuperação eficiente e garantir a integridade dos dados.

A

Utilizar exclusivamente bancos de dados relacionais tradicionais, pois garantem integridade referencial e eliminam problemas de latência, independentemente do volume de dados.

B

Eliminar a necessidade de armazenamento distribuído, consolidando todos os dados em um único servidor de alta performance, garantindo acesso mais rápido sem necessidade de replicação.

C

Priorizar a coleta e o armazenamento dos dados, pois a recuperação pode ser ajustada posteriormente sem impacto significativo no desempenho dos sistemas.

D

Armazenar todos os dados no formato bruto (raw data) sem processamento prévio, pois isso permite maior flexibilidade na recuperação sem a necessidade de esquemas predefinidos ou otimizações de consulta.

E

Implementar um sistema de armazenamento híbrido, combinando bancos de dados relacionais e não relacionais, além de técnicas como particionamento de dados e indexação para otimizar a recuperação.

Provas

Questão presente nas seguintes provas

3736442 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

O pré-processamento de textos é uma etapa importante¬¬no processo de análise e classificação de dados textuais. Ele visa transformar textos brutos em um formato adequado para ser utilizado em algoritmos de aprendizado de máquina. Entre as técnicas mais comuns no pré-processamento de textos, estão a remoção de stop words, a tokenização, a lematização e o estemização. Considere o texto original a seguir: "O carro estava muito sujo, então ele decidiu limpar o carro depois de um longo dia de trabalho. O carro ficou brilhante após a limpeza."
Com base nas técnicas de pré-processamento citadas, como ficará o texto original após a aplicação de tokenização e remoção de stop words?