A tabela a seguir contém informações sobre pedidos de clientes em uma loja. No entanto, essa tabela apresenta redundâncias e dependências parciais, indicando que não está normalizada.
Tabela Pedidos (forma não normalizada)
Pedido_ID
Cliente_Nome
Cliente_Endereço
Produto_Nome
Quantidade
Preço_Unitário
1
João Silva
Rua A, 123
Produto A
2
50,00
1
João Silva
Rua A, 123
Produto B
1
30,00
2
Maria Souza
Rua B, 456
Produto A
3
50,00
3
Carlos Lima
Rua C, 789
Produto C
1
20,00
3
Carlos Lima
Rua C, 789
Produto B
2
30,00
Considerando apenas as regras da 1ª e 2ª formas normais (1FN e 2FN), assinale a alternativa que apresenta a correta normalização da tabela apresentada.
Uma empresa do setor financeiro deseja prever a cotação
diária de uma ação com base nos preços históricos. Para isso,
a equipe de ciência de dados decide utilizar técnicas de
modelagem de séries temporais.
A equipe analisou diferentes abordagens e encontraram os
seguintes padrões nos dados: • Os preços seguem uma tendência crescente ao longo
do tempo;
• Há um padrão sazonal, com aumentos e quedas
recorrentes em períodos específicos;
• Os valores atuais são fortemente influenciados pelos
valores anteriores.
Com base nas características descritas, assinale a alternativa
que apresenta a técnica de modelagem de séries temporais
mais adequada para capturar esses padrões e gerar
previsões precisas.
Em Python, a manipulação de arquivos é essencial para lidar
com grandes volumes de dados de forma eficiente. Um
Analista de Ciência de Dados precisa abrir, ler e processar um
arquivo de texto contendo dados tabulares.
Com base nos conceitos corretos de manipulação de arquivos
em Python, assinale a alternativa que apresenta a abordagem
correta para manipular arquivos.
Uma plataforma de e-commerce deseja analisar automaticamente as avaliações deixadas pelos clientes nos produtos para determinar se são positivas ou negativas. Para isso, a equipe de ciência de dados está treinando um modelo de aprendizado de máquina para análise de sentimentos. Dado que as avaliações são textos não estruturados, a equipe experimentou diferentes métodos de representação vetorial para transformar os textos em formatos que o modelo pode processar. Após testar diferentes abordagens, eles obtiveram os seguintes resultados em um modelo de classificação de sentimentos:
Representação Vetorial
Acurácia nos Dados de
Treinamento
Acurácia nos Dados de
Teste
Bag of Words (BoW)
95%
70%
TF-IDF
94%
73%
Word2Vec (CBOW)
90%
80%
BERT (Transformers)
89%
88%
Com base nos resultados apresentados, assinale a alternativa que descreve a melhor escolha de representação vetorial para este problema e sua justificativa.
No ecossistema Python, diversas bibliotecas são amplamente
utilizadas para diferentes tarefas em ciência de dados,
aprendizado de máquina e processamento de linguagem
natural (PLN). Considerando as características e aplicações
dessas bibliotecas, assinale a alternativa que descreve a
funcionalidade principal de uma delas?
Em aprendizado de máquina, underfitting (subajuste) e
overfitting (sobreajuste) são problemas que afetam o
desempenho dos modelos. Considerando as definições
apresentadas, assinale a alternativa que descreve a diferença
entre esses dois problemas.
Uma empresa de e-commerce processa 10 milhões de
transações diárias e deseja identificar compras anômalas que
possam indicar fraude. Para lidar com esse grande volume de
dados, a equipe de ciência de dados decide utilizar o Apache
Spark para processar os dados de forma distribuída.
A equipe analisou um subconjunto de transações (em
dólares):
[35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43,
5000, 38, 44, 3700]
Utilizando o Spark SQL, calcularam a média e o desvio padrão
amostral das compras. Um valor é considerado anomalia se
estiver acima de 2 desvios padrão da média. Em relação à situação proposta e à análise, assinale a
alternativa que apresenta as transações que podem ser
classificadas como anômalas.
Uma empresa do setor varejista deseja melhorar sua tomada
de decisão utilizando técnicas de mineração de dados. A
equipe de ciência de dados está avaliando análises
descritivas e preditivas para diferentes necessidades.
Assinale a alternativa que caracteriza, corretamente, esses
dois tipos de análise.
No processo de modelagem de um banco de dados
relacional, é importante seguir boas práticas para garantir
integridade, eficiência e escalabilidade. Qual das alternativas,
a seguir, representa uma prática correta ao projetar um banco
de dados relacional?