Foram encontradas 5.009 questões.
Os outliers são dados que se distinguem significativamente dos demais no conjunto. Um outlier é um valor que se desvia substancialmente da normalidade e pode causar anomalias nos resultados gerados por algoritmos e sistemas de análise.
A seguir, é apresentado um gráfico de boxplot, que ilustra os retornos mensais das ações de uma empresa

Nesse contexto, analise as seguintes afirmações.
I. Outliers nunca devem ser removidos, pois sempre carregam informações importantes e não têm a capacidade de distorcer resultados ou enviesar modelos de análise.
II. A partir da análise visual do boxplot apresentado, é possível afirmar que o valor 14% é um outlier, pois ele está visivelmente distante do corpo principal dos dados, fora do intervalo interquartil (IQR).
III. Para a detecção de outliers, além da identificação visual, é possível utilizar métodos estatísticos e técnicas baseadas em aprendizado de máquina.
Está correto o que se afirma em
Provas
De acordo com o DAMA-DMBOK, 2ª edição, com relação à qualidade de dados, avalie as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.
( ) A qualidade de um dado depende em se atender às necessidades e expectativas daqueles que consomem esse dado. Dessa forma, a qualidade de um dado depende do contexto e necessidade dos consumidores desse dado.
( ) Ao analisar um determinado conjunto de dados, um Analista pode utilizar o Data Profiling para inspecionar dados e melhorar sua qualidade, corrigindo problemas. Exemplos de procedimentos compreendidos pelo Data Profiling incluem a identificação e remoção de outliers, assim como valores duplicados e a adição de atributos como Time/Date stamps.
( ) Data Enhancement, ou simplesmente enriquecimento, consiste em aprimorar um conjunto de dados existentes, para aumentar sua qualidade e usabilidade. Esse aprimoramento deve utilizar exclusivamente fontes internas à organização, uma vez que essas são consideradas mais confiáveis do que fontes externas.
As afirmativas são, respectivamente,
Provas
A Analista Judiciária Bianca, ao verificar um conjunto de dados, identificou que alguns valores não eram condizentes com o domínio definido para aqueles dados, de acordo com o DAMA-DMBOK.
Assinale a opção que apresenta a dimensão da qualidade de dados mais afetada nesse caso.
Provas
Modelos de linguagem de larga escala (Large Language Models - LLM) são frequentemente utilizados em processamento de linguagem natural, e podem gerar resultados inesperados em resposta às consultas dos usuários. Essas respostas são chamadas de alucinações dos modelos. Uma técnica usada para se evitar tais alucinações consiste em combinar os modelos generativos com sistemas de recuperação de informações, permitindo buscas em bases de dados mais confiáveis e melhorando a qualidade das respostas geradas.
A essa técnica dá-se o nome de
Provas
O processamento MapReduce consiste na aplicação de um algoritmo de computação distribuída para processar grandes conjuntos de dados em um cluster de computadores, dividindo cálculos complexos em tarefas menores e que podem ser executadas em paralelo. O MapReduce é implementado em etapas. Em uma dessas etapas, os dados de entrada divididos em partes são transformados em conjuntos de pares chave-valor (i.e., key-value pairs) adequados para o processamento paralelo e distribuído.
A essa etapa do MapReduce dá-se o nome de
Provas
Uma das etapas essenciais do tratamento e processamento de dados, em especial para estatística e para o aprendizado de máquina, consiste em sua organização e identificação. Uma maneira de organizar os dados de um conjunto consiste em classificá-los.
Relacione cada uma das variáveis a seguir, constantes de um conjunto de dados sobre um grupo de pessoas, com a classificação a ela mais adequada.
1. Grau de instrução (ex.: superior)
2. Número de filhos
3. Estado de Procedência (ex.: Minas Gerais)
4. Massa corporal
( ) Quantitativa Contínua
( ) Quantitativa Discreta
( ) Qualitativa Nominal
( ) Qualitativa Ordinal
A relação correta, na ordem apresentada, é
Provas
A normalização numérica é utilizada para o tratamento de dados, especialmente quando o processamento é dificultado por conta de as características de instâncias estarem distribuídas em diferentes escalas e intervalos. Uma técnica comum de normalização numérica utilizada para o tratamento de outliers é o escalonamento robusto, que se utiliza da mediana e da distância entre o primeiro e o terceiro quartis para efetuar o escalonamento dos dados.
Considere o conjunto de dados a seguir.
[3, 5, 7, 8, 10, 12, 15, 20, 22, 30, 50]
O valor normalizado por escalonamento robusto referente ao elemento “22” é dado aproximadamente por
Provas
Um dos principais objetivos dos algoritmos de aprendizado de máquinas é o de estabelecer um modelo que melhor descreva as relações entre variáveis de um conjunto de dados. Em algumas situações, ao serem treinados, os modelos ajustam-se demasiadamente aos dados do conjunto, capturando até mesmo padrões relacionados aos ruídos dos dados. Esses modelos tendem a ser excessivamente complexos e a ter um mau desempenho na generalização, isto é, nas etapas em que é necessário processar novas instâncias de dados não pertencentes ao conjunto de treinamento original.
Uma maneira de mitigar esse comportamento inconveniente é usar técnicas de
Provas
A classificação de dados é uma tarefa comumente executada por meio de algoritmos de aprendizado de máquina. Uma técnica muito conhecida de classificação se dá por aprendizado supervisionado, e classifica novas instâncias de dados por associação à classe da maioria das instâncias de dados preexistentes mais próximas a elas. A avaliação dessa proximidade é baseada em normas (isto é, métricas de distância) definidas no espaço multidimensional das amostras.
Assinale a técnica de classificação que melhor se enquadra nas características descritas acima.
Provas
A mineração de dados está inserida no processo de descoberta de conhecimento em bases de dados, empregando diversas técnicas e métodos na execução de diferentes tarefas.
Assinale a opção que contém apenas tarefas de mineração de dados.
Provas
Caderno Container