Questão 3886860

3886860 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PE

Provas:

Auditor de Controle Externo
Provas ×

Data Mining

Durante a preparação de um conjunto de dados para análise preditiva de inadimplência, um cientista de dados identificou diversos problemas de qualidade nos dados, incluindo:

• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");
• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");
• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;
• valores repetidos na chave primária “ID cliente”.

Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a:

validação para garantir que a idade não seja negativa é uma verificação de conformidade e pode ser realizada no Pandas, utilizando filtros booleanos.

detecção e remoção de duplicatas de chave primária atende à dimensão de completude, e deve ser feita usando dropna.

padronização de grafias em colunas categóricas está relacionada à dimensão de integridade, enquanto o tratamento de nulos se refere à unicidade.

substituição de valores nulos por zero é recomendada em todos os casos, pois preserva a precisão dos dados para modelagem.

coluna com grafias variadas não compromete a análise, desde que os dados estejam completos, pois está dentro da acurácia esperada.

Provas

Questão presente nas seguintes provas

Auditor de Controle Externo

80 Questões

Provas

Auditor de Controle Externo

Acesse sua Conta

Crie uma Conta