Magna Concursos

Foram encontradas 360 questões.

3979664 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CGE-SP
Um analista da Controladoria está utilizando a linguagem R para armazenar dados de uma planilha importada que contém diferentes tipos de variáveis: uma coluna de texto (Nome_Gestor), uma coluna de números inteiros (ID_Contrato) e uma coluna de valores monetários decimais (Valor_Total). É necessário que a estrutura de dados permita o armazenamento de colunas de diferentes tipos e suporte às operações vetoriais para análise estatística.
Assinale a opção que indica a estrutura de dados fundamental na linguagem R que é mais apropriada para armazenar dados tabulares, aceitando colunas com tipos de dados heterogêneos e nomes descritivos.
 

Provas

Questão presente nas seguintes provas
3979663 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CGE-SP
Um cientista de dados utiliza a linguagem Python e a biblioteca Pandas para processar um dataset de despesas da Controladoria. Ele precisa realizar uma operação que combine dados de dois DataFrames (despesas_2023 e despesas_2024) com base em uma coluna-chave comum (ID_Gestor), mas o novo DataFrame resultante deve incluir apenas os registros que possuem correspondência em ambos os DataFrames.

Assinale a opção que indica a operação fundamental do Pandas, análoga a uma operação de join em SQL, que deve ser usada para alcançar esse resultado, que inclui apenas a intersecção dos registros.
 

Provas

Questão presente nas seguintes provas
3979662 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP
Um cientista de dados da Controladoria está preparando um dataset de despesas públicas para ser utilizado em um algoritmo de Machine Learning baseado em distâncias como K-Nearest Neighbors - KNN.
A coluna Valor_Despesa varia amplamente, com valores entre R$ 100,00 (mínimo) e R$ 5.000.000,00 (máximo).
Assinale a opção que indica a técnica de Normalização Numérica mais adequada para reescalonar os dados da coluna Valor_Despesa, para que todos os seus valores sejam mapeados para um intervalo fixo entre 0 e 1.
 

Provas

Questão presente nas seguintes provas
3979661 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP
Um servidor da Controladoria deseja usar um Large Language Model (LLM), como o GPT ou Llama, em sua versão padrão pré treinada, para uma tarefa imediata e genérica de processamento de texto. A tarefa consiste em receber um longo relatório jurídico e criar um resumo conciso de um parágrafo.
Assinale a opção que indica a aplicação fundamental dos LLMs que permite que eles processem um texto extenso de entrada e gerem uma saída textual mais curta e coerente, como um resumo, sem a necessidade de ajuste fino (fine-tuning).
 

Provas

Questão presente nas seguintes provas
3979660 Ano: 2025
Disciplina: TI - Banco de Dados
Banca: FGV
Orgão: CGE-SP
A Controladoria está iniciando um programa formal de qualidade de dados com o objetivo de elevar a confiança nos seus relatórios de auditoria. Uma das primeiras e mais fundamentais ações é estabelecer clareza sobre o significado e as regras de validação para campos críticos, como CNPJ e Classificação Orçamentária.
Para documentar e formalizar de forma centralizada o significado de termos de negócio e as regras de validação associadas, servindo como a principal fonte de verdade para a qualidade de dados, a boa prática fundamental que deve ser adotada é a
 

Provas

Questão presente nas seguintes provas
3979659 Ano: 2025
Disciplina: TI - Banco de Dados
Banca: FGV
Orgão: CGE-SP
Em um projeto de auditoria da Controladoria, foi identificado que o campo CPF (Cadastro de Pessoa Física) em uma tabela possui, em alguns registros, valores vazios (NULL), o que impede a correta identificação dos envolvidos nos processos.
Assinale a opção que apresenta a Dimensão da Qualidade de Dados, na visão do DMBOK, que está sendo violada quando um campo, como o CPF, apresenta valores ausentes (NULL) na base de dados.
 

Provas

Questão presente nas seguintes provas
3979658 Ano: 2025
Disciplina: TI - Gestão e Governança de TI
Banca: FGV
Orgão: CGE-SP
O Processamento MapReduce é o paradigma fundamental para o processamento distribuído de Big Data em clusters.
Um cientista de dados usou essa técnica para processar milhões de logs de auditoria, em que a fase Map já emitiu pares chavevalor intermediários (ex: (UsuárioID, 1)).
De acordo com modelo MapReduce, assinale a opção que apresenta a função exata e sequencial da fase Shuffle & Sort que é crítica para preparar os dados para a posterior agregação na fase Reduce.
 

Provas

Questão presente nas seguintes provas
3979657 Ano: 2025
Disciplina: TI - Gestão e Governança de TI
Banca: FGV
Orgão: CGE-SP
No desenvolvimento de um sistema de recomendação para auxiliar cidadãos a encontrar serviços públicos correlacionados, a equipe avaliou o uso de diferentes técnicas, como Filtragem Colaborativa (FC) e Regras de Associação.
Sobre o tema, avalie as afirmativas a seguir.
I. As Regras de Associação como a Apriori são avaliadas pelo Suporte, Confiança e Lift, sendo o Lift maior que 1 o indicador da força da associação por considerar a frequência esperada das ocorrências.

II. A Filtragem Colaborativa é uma técnica robusta ao problema de Cold Start (novos usuários/itens), uma vez que não depende do histórico de interações.

III. Sistemas de recomendação do tipo Content-Based têm o risco de criar uma câmara de eco porque tendem a recomendar apenas itens com características muito semelhantes às interações passadas do usuário.


Está correto o que se afirma em
 

Provas

Questão presente nas seguintes provas
3979656 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP
Uma equipe de Ciência de Dados do setor público precisa analisar um grande dataset de características de cidadãos (alta dimensionalidade) para identificar grupos naturais de comportamento (segmentação) e, posteriormente, reduzir a dimensionalidade dos dados sem perder muita informação.
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.

I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.

II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.

III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.


Está correto o que se afirma em
 

Provas

Questão presente nas seguintes provas
3979655 Ano: 2025
Disciplina: Estatística
Banca: FGV
Orgão: CGE-SP
Um cientista de dados de uma agência reguladora está desenvolvendo modelos de Machine Learning para dois problemas distintos: classificar empresas de alto e baixo risco de fraude focando na Classificação Binária e prever o valor futuro de um indicador econômico tendo por base os fundamentos da Regressão.
Sobre as técnicas de modelagem e avaliação mais adequadas para cada cenário, avalie as afirmativas a seguir.

I. No problema de Classificação Binária com uma base desbalanceada, a métrica do coeficiente de determinação R 2 deve ser priorizada sobre a acurácia.

II. No problema de Regressão, o erro quadrático médio (MSE - Mean Squared Error) é altamente sensível a outliers, e sua raiz quadrada RMSE possui a mesma unidade de medida da variável alvo.

III. O modelo de Regressão Logística é uma técnica de classificação que é adequada para estimar a probabilidade de um evento, mas é incorreto utilizá-lo para prever um valor contínuo como na Regressão.

Está correto o que se afirma em
 

Provas

Questão presente nas seguintes provas