Uma empresa de e-commerce processa 10 milhões de
transações diárias e deseja identificar compras anômalas que
possam indicar fraude. Para lidar com esse grande volume de
dados, a equipe de ciência de dados decide utilizar o Apache
Spark para processar os dados de forma distribuída.
A equipe analisou um subconjunto de transações (em
dólares):
[35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43, 5000, 38, 44, 3700]
Utilizando o Spark SQL, calcularam a média e o desvio padrão amostral das compras. Um valor é considerado anomalia se estiver acima de 2 desvios padrão da média.
Em relação à situação proposta e à análise, assinale a alternativa que apresenta as transações que podem ser classificadas como anômalas.
[35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43, 5000, 38, 44, 3700]
Utilizando o Spark SQL, calcularam a média e o desvio padrão amostral das compras. Um valor é considerado anomalia se estiver acima de 2 desvios padrão da média.
Em relação à situação proposta e à análise, assinale a alternativa que apresenta as transações que podem ser classificadas como anômalas.