Uma Secretaria da Fazenda Estadual recebeu uma base de dados contendo 2,3 milhões de registros de declarações fiscais para
análise de conformidade tributária. Durante a fase de exploração inicial, a equipe técnica identificou diversos problemas: campos de
CNPJ com formatações inconsistentes (alguns com pontuação, outros sem), valores monetários registrados com separadores
decimais divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AÄAA, AAAA-MM-DD), campos obrigatórios vazios em
aproximadamente 12% dos registros, e a presença de valores extremos de receita bruta (outliers) que distorciam as análises
estatísticas. Além disso, a variável "regime tributário" apresentava categorias redundantes devidoa erros de digitação (ex:
"Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Para viabilizar a análise de risco fiscal e a construção de modelos
preditivos, tornou-se necessário aplicar técnicas sistemáticas de preparação dos dados antes do processamento analítico.
Considerando as melhores práticas de pré-processamento de dados, o tratamento correto e adequado para essa situação é
Provas
Questão presente nas seguintes provas