Um modelo de linguagem baseado em unigramas foi treinado
em um grande volume de textos em português. Esse modelo
atribui probabilidades a palavras individuais, sem levar em
consideração a ordem em que aparecem na sentença.
Sabendo-se que a perplexidade é uma métrica que mede
quão bem um modelo de linguagem prediz um texto, assinale
a alternativa que melhor representa a perplexidade do modelo
nas frases "qual sanduíche Maria comeu" e "Maria comeu o
sanduíche".
Em aprendizado de máquina, a calibração de
hiperparâmetros é um processo importante para otimizar o
desempenho de um modelo. Considere o seguinte cenário:
Você está treinando um modelo de Random Forest para prever
o preço de imóveis e percebe que o desempenho do modelo
não está satisfatório. Após uma análise, você decide calibrar
os hiperparâmetros para tentar melhorar o modelo. Para isso,
você seleciona os seguintes hiperparâmetros para calibração:
• n_estimators (número de árvores na floresta);
• max_depth (profundidade máxima de cada árvore);
• min_samples_split (número mínimo de amostras
necessárias para dividir um nó).
Assinale a alternativa que apresenta a melhor abordagem
para encontrar a combinação ideal desses hiperparâmetros.
Os algoritmos de clusterização são utilizados na ciência de dados para agrupar elementos semelhantes com base em suas características. Um dos métodos mais comuns para medir a similaridade entre pontos é a distância Euclidiana, que calcula o quão próximos ou distantes os elementos estão em um espaço multidimensional. Essa métrica é a base para a determinação da formação dos clusters em algoritmos como K-Means e DBSCAN. Uma empresa deseja agrupar clientes com base em seu comportamento de compra. Para isso, foram coletados dois atributos: a quantidade de produtos diferentes comprados no último mês (X) e o valor total gasto (em centenas de reais) (Y). A tabela, a seguir, apresenta os dados coletados de quatro clientes, que serão usados para gerar a matriz de distâncias com base na distância Euclidiana:
Cliente
Qtde de produtos (X)
Valor Gasto (Y)
A
2
3
B
5
7
C
1
4
D
6
2
Em relação à matriz de distância gerada, assinale a alternativa correta.
Uma ONG, especializada na busca por gatos desaparecidos,
contratou uma empresa de tecnologia para desenvolver um
sistema de classificação de imagens baseado em
Aprendizado Profundo. O objetivo é que o sistema identifique
gatos em fotos enviadas por usuários. Para isso, a empresa
optou por utilizar Redes Neurais Convolucionais (CNNs), dada
sua capacidade de extrair automaticamente padrões visuais
hierárquicos.
Durante o treinamento, os desenvolvedores perceberam que
a rede estava obtendo alta acurácia no conjunto de treino, mas
baixo desempenho no conjunto de teste. Além disso, ao
inspecionar os mapas de ativação, notaram que a rede estava
focando em características irrelevantes do fundo da imagem
em vez de identificar os gatos corretamente.
E relação ao problema descrito, assinale a alternativa que
apresenta a abordagem mais eficaz para aprimorar a
capacidade de generalização de um modelo de aprendizado
de máquina.
Uma grande empresa do setor financeiro decidiu modernizar
sua infraestrutura de dados para suportar análises preditivas
e relatórios gerenciais avançados, além de manter a eficiência
nas transações diárias de seus clientes. Atualmente, a
empresa possui um banco de dados relacional tradicional que
armazena transações bancárias em tempo real, mas enfrenta
dificuldades ao executar consultas analíticas complexas,
como identificação de padrões de fraude e segmentação de
clientes com base no histórico de gastos.
Diante desse cenário, a empresa considera a separação da
sua arquitetura de dados em dois ambientes distintos: um
banco de dados transacional (OLTP) e um ambiente analítico
(OLAP). Em relação ao contexto apresentado, assinale a alternativa
correta.
No Power BI, a modelagem de dados é essencial para garantir
desempenho e a correta interpretação das informações. Um
modelo, no Power BI, consiste em uma ou mais tabelas e
diversas relações entre elas (quando existir mais de uma
tabela). Para garantir granularidade e eficiência nas
visualizações e relatórios, a escolha do esquema de dados é
fundamental. Uma empresa está implementando um dashboard no Power
BI para monitorar as vendas de seus produtos em diversas
regiões do país. O banco de dados contém informações
sobre:
• Vendas realizadas (data, valor, quantidade, produto
vendido, vendedor e região).
• Detalhes dos produtos (código, categoria, marca e
preço unitário).
• Informações dos clientes (nome, CPF, idade, estado
civil e cidade).
• Registros de vendedores (nome, código do vendedor
e equipe de vendas).
Considerando as melhores práticas de modelagem de dados
no Power BI, qual esquema de dados é mais adequado para
estruturar esse modelo e garantir performance e facilidade de
análise?
Considere o seguinte modelo de dados no Power BI
construído por um desenvolvedor:
•Tabela Vendas com colunas: Data, Produto,
Quantidade, ValorTotal, ID_Cliente.
•Tabela Clientes com colunas: ID_Cliente, Nome,
Segmento.
As tabelas estão relacionadas por ID_Cliente, em um
relacionamento um-para-muitos de Clientes para Vendas. O desenvolvedor então cria a seguinte
medida em DAX:
Total Vendas Segmento =CALCULATE( SUM(Vendas[ValorTotal]), ALL(Clientes[Segmento]))
Diante do exposto, assinale a alternativa que
apresenta o efeito dessa medida em um visual de
tabela que mostra Clientes[Segmento] e Total Vendas
Segmento.
Os sistemas que empregam o Aprendizado de
Máquina promovem funcionalidades inteligentes
para seus usuários. Nesse contexto, existem
diferentes tipos de aprendizado. Diante do exposto,
assinale a alternativa CORRETA.
Um Data Lake é um repositório centralizado que
permite armazenar dados para uso em sistemas de
diferentes tipos. Nesse contexto, considere as
seguintes características:
I- Suporta tipos de dados estruturados,
semiestruturados e não estruturados.
II- Custo de armazenamento elevado.
III- Os dados são interpretados no momento da
leitura.
IV- Apresenta flexibilidade baixa/moderada.
Assinale a alternativa que traz características
inerentes ao Data Lake.
O Data Warehouse (DW) é um repositório de dados
históricos capaz de produzir indicadores e evolução
de valores ao longo de um grande intervalo de tempo.
Diante do exposto, assinale a alternativa CORRETA.