Uma equipe de Ciência de Dados do setor público precisa analisar
um grande dataset de características de cidadãos (alta
dimensionalidade) para identificar grupos naturais de
comportamento (segmentação) e, posteriormente, reduzir a
dimensionalidade dos dados sem perder muita informação.
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.
I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.
II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.
III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.
Está correto o que se afirma em
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.
I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.
II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.
III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.
Está correto o que se afirma em