Durante a preparação de um conjunto de dados para análise
preditiva de inadimplência, um cientista de dados identificou
diversos problemas de qualidade nos dados, incluindo:
• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");
• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");
• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;
• valores repetidos na chave primária “ID cliente”.
Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a:
• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");
• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");
• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;
• valores repetidos na chave primária “ID cliente”.
Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a: