Questões do Concurso CGE-SP - FGV

3979664 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Linguagens

Um analista da Controladoria está utilizando a linguagem R para armazenar dados de uma planilha importada que contém diferentes tipos de variáveis: uma coluna de texto (Nome_Gestor), uma coluna de números inteiros (ID_Contrato) e uma coluna de valores monetários decimais (Valor_Total). É necessário que a estrutura de dados permita o armazenamento de colunas de diferentes tipos e suporte às operações vetoriais para análise estatística.
Assinale a opção que indica a estrutura de dados fundamental na linguagem R que é mais apropriada para armazenar dados tabulares, aceitando colunas com tipos de dados heterogêneos e nomes descritivos.

Provas

Questão presente nas seguintes provas

3979663 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Linguagens

Um cientista de dados utiliza a linguagem Python e a biblioteca Pandas para processar um dataset de despesas da Controladoria. Ele precisa realizar uma operação que combine dados de dois DataFrames (despesas_2023 e despesas_2024) com base em uma coluna-chave comum (ID_Gestor), mas o novo DataFrame resultante deve incluir apenas os registros que possuem correspondência em ambos os DataFrames.

Assinale a opção que indica a operação fundamental do Pandas, análoga a uma operação de join em SQL, que deve ser usada para alcançar esse resultado, que inclui apenas a intersecção dos registros.

Provas

Questão presente nas seguintes provas

3979662 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Um cientista de dados da Controladoria está preparando um dataset de despesas públicas para ser utilizado em um algoritmo de Machine Learning baseado em distâncias como K-Nearest Neighbors - KNN.
A coluna Valor_Despesa varia amplamente, com valores entre R$ 100,00 (mínimo) e R$ 5.000.000,00 (máximo).
Assinale a opção que indica a técnica de Normalização Numérica mais adequada para reescalonar os dados da coluna Valor_Despesa, para que todos os seus valores sejam mapeados para um intervalo fixo entre 0 e 1.

Provas

Questão presente nas seguintes provas

3979661 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Um servidor da Controladoria deseja usar um Large Language Model (LLM), como o GPT ou Llama, em sua versão padrão pré treinada, para uma tarefa imediata e genérica de processamento de texto. A tarefa consiste em receber um longo relatório jurídico e criar um resumo conciso de um parágrafo.
Assinale a opção que indica a aplicação fundamental dos LLMs que permite que eles processem um texto extenso de entrada e gerem uma saída textual mais curta e coerente, como um resumo, sem a necessidade de ajuste fino (fine-tuning).

Provas

Questão presente nas seguintes provas

3979660 Ano: 2025
Disciplina: TI - Banco de Dados
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Conceitos e FundamentosConceitos Fundamentais de Banco de Dados

A Controladoria está iniciando um programa formal de qualidade de dados com o objetivo de elevar a confiança nos seus relatórios de auditoria. Uma das primeiras e mais fundamentais ações é estabelecer clareza sobre o significado e as regras de validação para campos críticos, como CNPJ e Classificação Orçamentária.
Para documentar e formalizar de forma centralizada o significado de termos de negócio e as regras de validação associadas, servindo como a principal fonte de verdade para a qualidade de dados, a boa prática fundamental que deve ser adotada é a

Provas

Questão presente nas seguintes provas

3979659 Ano: 2025
Disciplina: TI - Banco de Dados
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Banco de Dados RelacionalRestrições de IntegridadeIntegridade de Domínio

Em um projeto de auditoria da Controladoria, foi identificado que o campo CPF (Cadastro de Pessoa Física) em uma tabela possui, em alguns registros, valores vazios (NULL), o que impede a correta identificação dos envolvidos nos processos.
Assinale a opção que apresenta a Dimensão da Qualidade de Dados, na visão do DMBOK, que está sendo violada quando um campo, como o CPF, apresenta valores ausentes (NULL) na base de dados.

Provas

Questão presente nas seguintes provas

3979658 Ano: 2025
Disciplina: TI - Gestão e Governança de TI
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Gestão da Informação

O Processamento MapReduce é o paradigma fundamental para o processamento distribuído de Big Data em clusters.
Um cientista de dados usou essa técnica para processar milhões de logs de auditoria, em que a fase Map já emitiu pares chavevalor intermediários (ex: (UsuárioID, 1)).
De acordo com modelo MapReduce, assinale a opção que apresenta a função exata e sequencial da fase Shuffle & Sort que é crítica para preparar os dados para a posterior agregação na fase Reduce.

A

Coletar a saída intermediária dos Mappers, transportar, particionar e ordenar esses pares chave-valor, garantindo que todas as ocorrências de uma mesma chave sejam agrupadas e enviadas ao mesmo Reducer.

B

Coletar os dados brutos da fonte de dados distribuída e aplicar a função de filtragem inicial (Map) em cada nó de processamento.

C

Aplicar a função de agregação de redução (Reduce) nas chaves recebidas, calculando a soma final em uma única operação.

D

Persistir a saída final no HDFS e coordenar a distribuição de blocos entre os DataNodes do cluster.

E

Realizar o split lógico dos arquivos de entrada em blocos menores e garantir a tolerância a falhas através da replicação automática.

Provas

Questão presente nas seguintes provas

3979657 Ano: 2025
Disciplina: TI - Gestão e Governança de TI
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Gestão da Informação

No desenvolvimento de um sistema de recomendação para auxiliar cidadãos a encontrar serviços públicos correlacionados, a equipe avaliou o uso de diferentes técnicas, como Filtragem Colaborativa (FC) e Regras de Associação.
Sobre o tema, avalie as afirmativas a seguir.
I. As Regras de Associação como a Apriori são avaliadas pelo Suporte, Confiança e Lift, sendo o Lift maior que 1 o indicador da força da associação por considerar a frequência esperada das ocorrências.

II. A Filtragem Colaborativa é uma técnica robusta ao problema de Cold Start (novos usuários/itens), uma vez que não depende do histórico de interações.

III. Sistemas de recomendação do tipo Content-Based têm o risco de criar uma câmara de eco porque tendem a recomendar apenas itens com características muito semelhantes às interações passadas do usuário.

Está correto o que se afirma em

Provas

Questão presente nas seguintes provas

3979656 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Uma equipe de Ciência de Dados do setor público precisa analisar um grande dataset de características de cidadãos (alta dimensionalidade) para identificar grupos naturais de comportamento (segmentação) e, posteriormente, reduzir a dimensionalidade dos dados sem perder muita informação.
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.

I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.

II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.

III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.

Está correto o que se afirma em

Provas

Questão presente nas seguintes provas

3979655 Ano: 2025
Disciplina: Estatística
Banca: FGV
Orgão: CGE-SP

Provas:

Auditor Estadual de Controle - TI
Provas ×

Regressão

Um cientista de dados de uma agência reguladora está desenvolvendo modelos de Machine Learning para dois problemas distintos: classificar empresas de alto e baixo risco de fraude focando na Classificação Binária e prever o valor futuro de um indicador econômico tendo por base os fundamentos da Regressão.
Sobre as técnicas de modelagem e avaliação mais adequadas para cada cenário, avalie as afirmativas a seguir.

I. No problema de Classificação Binária com uma base desbalanceada, a métrica do coeficiente de determinação R ²deve ser priorizada sobre a acurácia.

II. No problema de Regressão, o erro quadrático médio (MSE - Mean Squared Error) é altamente sensível a outliers, e sua raiz quadrada RMSE possui a mesma unidade de medida da variável alvo.

III. O modelo de Regressão Logística é uma técnica de classificação que é adequada para estimar a probabilidade de um evento, mas é incorreto utilizá-lo para prever um valor contínuo como na Regressão.

Está correto o que se afirma em