Foram encontradas 360 questões.
Um analista da Controladoria está utilizando a linguagem R para
armazenar dados de uma planilha importada que contém
diferentes tipos de variáveis: uma coluna de texto
(Nome_Gestor), uma coluna de números inteiros (ID_Contrato) e
uma coluna de valores monetários decimais (Valor_Total). É
necessário que a estrutura de dados permita o armazenamento
de colunas de diferentes tipos e suporte às operações vetoriais
para análise estatística.
Assinale a opção que indica a estrutura de dados fundamental na linguagem R que é mais apropriada para armazenar dados tabulares, aceitando colunas com tipos de dados heterogêneos e nomes descritivos.
Assinale a opção que indica a estrutura de dados fundamental na linguagem R que é mais apropriada para armazenar dados tabulares, aceitando colunas com tipos de dados heterogêneos e nomes descritivos.
Provas
Questão presente nas seguintes provas
Um cientista de dados utiliza a linguagem Python e a biblioteca
Pandas para processar um dataset de despesas da Controladoria.
Ele precisa realizar uma operação que combine dados de dois
DataFrames (despesas_2023 e despesas_2024) com base em uma
coluna-chave comum (ID_Gestor), mas o novo DataFrame
resultante deve incluir apenas os registros que possuem
correspondência em ambos os DataFrames.
Assinale a opção que indica a operação fundamental do Pandas, análoga a uma operação de join em SQL, que deve ser usada para alcançar esse resultado, que inclui apenas a intersecção dos registros.
Assinale a opção que indica a operação fundamental do Pandas, análoga a uma operação de join em SQL, que deve ser usada para alcançar esse resultado, que inclui apenas a intersecção dos registros.
Provas
Questão presente nas seguintes provas
Um cientista de dados da Controladoria está preparando um
dataset de despesas públicas para ser utilizado em um algoritmo
de Machine Learning baseado em distâncias como K-Nearest
Neighbors - KNN.
A coluna Valor_Despesa varia amplamente, com valores entre R$ 100,00 (mínimo) e R$ 5.000.000,00 (máximo).
Assinale a opção que indica a técnica de Normalização Numérica mais adequada para reescalonar os dados da coluna Valor_Despesa, para que todos os seus valores sejam mapeados para um intervalo fixo entre 0 e 1.
A coluna Valor_Despesa varia amplamente, com valores entre R$ 100,00 (mínimo) e R$ 5.000.000,00 (máximo).
Assinale a opção que indica a técnica de Normalização Numérica mais adequada para reescalonar os dados da coluna Valor_Despesa, para que todos os seus valores sejam mapeados para um intervalo fixo entre 0 e 1.
Provas
Questão presente nas seguintes provas
Um servidor da Controladoria deseja usar um Large Language
Model (LLM), como o GPT ou Llama, em sua versão padrão pré treinada, para uma tarefa imediata e genérica de processamento
de texto. A tarefa consiste em receber um longo relatório jurídico
e criar um resumo conciso de um parágrafo.
Assinale a opção que indica a aplicação fundamental dos LLMs que permite que eles processem um texto extenso de entrada e gerem uma saída textual mais curta e coerente, como um resumo, sem a necessidade de ajuste fino (fine-tuning).
Assinale a opção que indica a aplicação fundamental dos LLMs que permite que eles processem um texto extenso de entrada e gerem uma saída textual mais curta e coerente, como um resumo, sem a necessidade de ajuste fino (fine-tuning).
Provas
Questão presente nas seguintes provas
A Controladoria está iniciando um programa formal de qualidade
de dados com o objetivo de elevar a confiança nos seus relatórios
de auditoria. Uma das primeiras e mais fundamentais ações é
estabelecer clareza sobre o significado e as regras de validação
para campos críticos, como CNPJ e Classificação Orçamentária.
Para documentar e formalizar de forma centralizada o significado de termos de negócio e as regras de validação associadas, servindo como a principal fonte de verdade para a qualidade de dados, a boa prática fundamental que deve ser adotada é a
Para documentar e formalizar de forma centralizada o significado de termos de negócio e as regras de validação associadas, servindo como a principal fonte de verdade para a qualidade de dados, a boa prática fundamental que deve ser adotada é a
Provas
Questão presente nas seguintes provas
Em um projeto de auditoria da Controladoria, foi identificado que
o campo CPF (Cadastro de Pessoa Física) em uma tabela possui,
em alguns registros, valores vazios (NULL), o que impede a
correta identificação dos envolvidos nos processos.
Assinale a opção que apresenta a Dimensão da Qualidade de Dados, na visão do DMBOK, que está sendo violada quando um campo, como o CPF, apresenta valores ausentes (NULL) na base de dados.
Assinale a opção que apresenta a Dimensão da Qualidade de Dados, na visão do DMBOK, que está sendo violada quando um campo, como o CPF, apresenta valores ausentes (NULL) na base de dados.
Provas
Questão presente nas seguintes provas
O Processamento MapReduce é o paradigma fundamental para o
processamento distribuído de Big Data em clusters.
Um cientista de dados usou essa técnica para processar milhões de logs de auditoria, em que a fase Map já emitiu pares chavevalor intermediários (ex: (UsuárioID, 1)).
De acordo com modelo MapReduce, assinale a opção que apresenta a função exata e sequencial da fase Shuffle & Sort que é crítica para preparar os dados para a posterior agregação na fase Reduce.
Um cientista de dados usou essa técnica para processar milhões de logs de auditoria, em que a fase Map já emitiu pares chavevalor intermediários (ex: (UsuárioID, 1)).
De acordo com modelo MapReduce, assinale a opção que apresenta a função exata e sequencial da fase Shuffle & Sort que é crítica para preparar os dados para a posterior agregação na fase Reduce.
Provas
Questão presente nas seguintes provas
No desenvolvimento de um sistema de recomendação para
auxiliar cidadãos a encontrar serviços públicos correlacionados, a
equipe avaliou o uso de diferentes técnicas, como Filtragem
Colaborativa (FC) e Regras de Associação.
Sobre o tema, avalie as afirmativas a seguir.
I. As Regras de Associação como a Apriori são avaliadas pelo Suporte, Confiança e Lift, sendo o Lift maior que 1 o indicador da força da associação por considerar a frequência esperada das ocorrências.
II. A Filtragem Colaborativa é uma técnica robusta ao problema de Cold Start (novos usuários/itens), uma vez que não depende do histórico de interações.
III. Sistemas de recomendação do tipo Content-Based têm o risco de criar uma câmara de eco porque tendem a recomendar apenas itens com características muito semelhantes às interações passadas do usuário.
Está correto o que se afirma em
Sobre o tema, avalie as afirmativas a seguir.
I. As Regras de Associação como a Apriori são avaliadas pelo Suporte, Confiança e Lift, sendo o Lift maior que 1 o indicador da força da associação por considerar a frequência esperada das ocorrências.
II. A Filtragem Colaborativa é uma técnica robusta ao problema de Cold Start (novos usuários/itens), uma vez que não depende do histórico de interações.
III. Sistemas de recomendação do tipo Content-Based têm o risco de criar uma câmara de eco porque tendem a recomendar apenas itens com características muito semelhantes às interações passadas do usuário.
Está correto o que se afirma em
Provas
Questão presente nas seguintes provas
Uma equipe de Ciência de Dados do setor público precisa analisar
um grande dataset de características de cidadãos (alta
dimensionalidade) para identificar grupos naturais de
comportamento (segmentação) e, posteriormente, reduzir a
dimensionalidade dos dados sem perder muita informação.
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.
I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.
II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.
III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.
Está correto o que se afirma em
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.
I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.
II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.
III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.
Está correto o que se afirma em
Provas
Questão presente nas seguintes provas
Um cientista de dados de uma agência reguladora está
desenvolvendo modelos de Machine Learning para dois
problemas distintos: classificar empresas de alto e baixo risco de
fraude focando na Classificação Binária e prever o valor futuro de
um indicador econômico tendo por base os fundamentos da
Regressão.
Sobre as técnicas de modelagem e avaliação mais adequadas para cada cenário, avalie as afirmativas a seguir.
I. No problema de Classificação Binária com uma base desbalanceada, a métrica do coeficiente de determinação R 2 deve ser priorizada sobre a acurácia.
II. No problema de Regressão, o erro quadrático médio (MSE - Mean Squared Error) é altamente sensível a outliers, e sua raiz quadrada RMSE possui a mesma unidade de medida da variável alvo.
III. O modelo de Regressão Logística é uma técnica de classificação que é adequada para estimar a probabilidade de um evento, mas é incorreto utilizá-lo para prever um valor contínuo como na Regressão.
Está correto o que se afirma em
Sobre as técnicas de modelagem e avaliação mais adequadas para cada cenário, avalie as afirmativas a seguir.
I. No problema de Classificação Binária com uma base desbalanceada, a métrica do coeficiente de determinação R 2 deve ser priorizada sobre a acurácia.
II. No problema de Regressão, o erro quadrático médio (MSE - Mean Squared Error) é altamente sensível a outliers, e sua raiz quadrada RMSE possui a mesma unidade de medida da variável alvo.
III. O modelo de Regressão Logística é uma técnica de classificação que é adequada para estimar a probabilidade de um evento, mas é incorreto utilizá-lo para prever um valor contínuo como na Regressão.
Está correto o que se afirma em
Provas
Questão presente nas seguintes provas
Cadernos
Caderno Container