3736441 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesIA Generativa e LLMs

Um modelo de linguagem baseado em unigramas foi treinado em um grande volume de textos em português. Esse modelo atribui probabilidades a palavras individuais, sem levar em consideração a ordem em que aparecem na sentença. Sabendo-se que a perplexidade é uma métrica que mede quão bem um modelo de linguagem prediz um texto, assinale a alternativa que melhor representa a perplexidade do modelo nas frases "qual sanduíche Maria comeu" e "Maria comeu o sanduíche".

A

As perplexidades das duas frases serão iguais, pois ambas contêm as mesmas palavras.

B

A perplexidade de "Maria comeu o sanduíche" será maior, pois a presença de "o" torna a sequência mais previsível.

C

A perplexidade de "qual sanduíche Maria comeu" será maior, pois a palavra "qual" tem uma probabilidade menor de ocorrência e é menos comum.

D

A perplexidade de "Maria comeu o sanduíche" será menor, pois o modelo tende a atribuir maior probabilidade à sequência de palavras com maior frequência.

E

A perplexidade de "qual sanduíche Maria comeu" será menor, pois a palavra "qual" ajuda a contextualizar melhor a sequência de palavras.

Provas

Questão presente nas seguintes provas

3736440 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Em aprendizado de máquina, a calibração de hiperparâmetros é um processo importante para otimizar o desempenho de um modelo. Considere o seguinte cenário: Você está treinando um modelo de Random Forest para prever o preço de imóveis e percebe que o desempenho do modelo não está satisfatório. Após uma análise, você decide calibrar os hiperparâmetros para tentar melhorar o modelo. Para isso, você seleciona os seguintes hiperparâmetros para calibração:

• n_estimators (número de árvores na floresta); • max_depth (profundidade máxima de cada árvore); • min_samples_split (número mínimo de amostras necessárias para dividir um nó).

Assinale a alternativa que apresenta a melhor abordagem para encontrar a combinação ideal desses hiperparâmetros.

A

Ajustar os hiperparâmetros manualmente, testando diferentes combinações de uma única vez, sem validação cruzada, até encontrar uma configuração que melhore o desempenho.

B

Utilizar a técnica de pesquisa aleatória (Random Search), testando uma combinação aleatória de valores para os hiperparâmetros, sem avaliar o desempenho em diferentes subdivisões do conjunto de dados.

C

Focar apenas no parâmetro n_estimators e testar os valores 50, 100 e 150, já que esse é o parâmetro mais importante para a Random Forest.

D

Usar a técnica de pesquisa em grade (Grid Search), testando todas as combinações possíveis de valores para n_estimators, max_depth e min_samples_split, e avaliar a performance a partir da validação cruzada.

E

Manter os hiperparâmetros padrões da biblioteca e esperar que o modelo se ajuste automaticamente, pois os hiperparâmetros padrões funcionam bem na maioria dos casos.

Provas

Questão presente nas seguintes provas

3736439 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAlgoritmos

Os algoritmos de clusterização são utilizados na ciência de dados para agrupar elementos semelhantes com base em suas características. Um dos métodos mais comuns para medir a similaridade entre pontos é a distância Euclidiana, que calcula o quão próximos ou distantes os elementos estão em um espaço multidimensional. Essa métrica é a base para a determinação da formação dos clusters em algoritmos como K-Means e DBSCAN. Uma empresa deseja agrupar clientes com base em seu comportamento de compra. Para isso, foram coletados dois atributos: a quantidade de produtos diferentes comprados no último mês (X) e o valor total gasto (em centenas de reais) (Y). A tabela, a seguir, apresenta os dados coletados de quatro clientes, que serão usados para gerar a matriz de distâncias com base na distância Euclidiana:

Cliente	Qtde de produtos (X)	Valor Gasto (Y)
A	2	3
B	5	7
C	1	4
D	6	2

Em relação à matriz de distância gerada, assinale a alternativa correta.

Provas

Questão presente nas seguintes provas

3736436 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Uma ONG, especializada na busca por gatos desaparecidos, contratou uma empresa de tecnologia para desenvolver um sistema de classificação de imagens baseado em Aprendizado Profundo. O objetivo é que o sistema identifique gatos em fotos enviadas por usuários. Para isso, a empresa optou por utilizar Redes Neurais Convolucionais (CNNs), dada sua capacidade de extrair automaticamente padrões visuais hierárquicos. Durante o treinamento, os desenvolvedores perceberam que a rede estava obtendo alta acurácia no conjunto de treino, mas baixo desempenho no conjunto de teste. Além disso, ao inspecionar os mapas de ativação, notaram que a rede estava focando em características irrelevantes do fundo da imagem em vez de identificar os gatos corretamente.
E relação ao problema descrito, assinale a alternativa que apresenta a abordagem mais eficaz para aprimorar a capacidade de generalização de um modelo de aprendizado de máquina.

A

Aumentar a complexidade do modelo, utilizando o máximo de parâmetros possíveis, sem restrições.

B

Treinar o modelo exclusivamente com os dados de treinamento disponíveis, sem validação externa ou ajuste fino.

C

Implementar técnicas de regularização, como L1 ou L2, e utilizar validação cruzada para avaliar o desempenho e ajustar hiperparâmetros.

D

Reduzir drasticamente o conjunto de dados de treinamento para evitar sobreajuste, mesmo que isso comprometa a representatividade dos dados.

E

Ignorar a fase de pré-processamento de dados e utilizar os dados brutos diretamente no treinamento do modelo.

Provas

Questão presente nas seguintes provas

3736435 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

BI: Business IntelligenceOLAP e OLTP

Uma grande empresa do setor financeiro decidiu modernizar sua infraestrutura de dados para suportar análises preditivas e relatórios gerenciais avançados, além de manter a eficiência nas transações diárias de seus clientes. Atualmente, a empresa possui um banco de dados relacional tradicional que armazena transações bancárias em tempo real, mas enfrenta dificuldades ao executar consultas analíticas complexas, como identificação de padrões de fraude e segmentação de clientes com base no histórico de gastos. Diante desse cenário, a empresa considera a separação da sua arquitetura de dados em dois ambientes distintos: um banco de dados transacional (OLTP) e um ambiente analítico (OLAP).
Em relação ao contexto apresentado, assinale a alternativa correta.

A

A empresa pode continuar utilizando um único banco OLTP, desde que otimize seus índices e crie visões materializadas para melhorar a performance de consultas analíticas, eliminando a necessidade de um ambiente OLAP.

B

A empresa deve optar por um banco de dados NoSQL em substituição ao OLTP tradicional, pois bancos relacionais não são capazes de lidar com transações financeiras de forma eficiente.

C

O principal benefício de utilizar um OLAP nesse cenário é garantir alta disponibilidade e escalabilidade horizontal, melhorando a velocidade das transações diárias dos clientes.

D

O ambiente OLTP deve ser utilizado para armazenar transações bancárias e consultas operacionais em tempo real, enquanto o OLAP será responsável por consultas analíticas complexas, como detecção de fraudes e previsão de tendências.

E

Em uma arquitetura de Big Data moderna, não há mais distinção entre OLTP e OLAP, pois soluções como Apache Spark e Hadoop substituem qualquer necessidade de bancos de dados transacionais e analíticos separados.

Provas

Questão presente nas seguintes provas

3736433 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

BI: Business Intelligence

No Power BI, a modelagem de dados é essencial para garantir desempenho e a correta interpretação das informações. Um modelo, no Power BI, consiste em uma ou mais tabelas e diversas relações entre elas (quando existir mais de uma tabela). Para garantir granularidade e eficiência nas visualizações e relatórios, a escolha do esquema de dados é fundamental.
Uma empresa está implementando um dashboard no Power BI para monitorar as vendas de seus produtos em diversas regiões do país. O banco de dados contém informações sobre:

• Vendas realizadas (data, valor, quantidade, produto vendido, vendedor e região).
• Detalhes dos produtos (código, categoria, marca e preço unitário).
• Informações dos clientes (nome, CPF, idade, estado civil e cidade).
• Registros de vendedores (nome, código do vendedor e equipe de vendas).

Considerando as melhores práticas de modelagem de dados no Power BI, qual esquema de dados é mais adequado para estruturar esse modelo e garantir performance e facilidade de análise?

A

Modelo plano, pois consolidar todas as informações em uma única tabela elimina a necessidade de relacionamentos, simplificando as consultas.

B

Modelo estrela, pois permite organizar os dados com uma tabela fato de vendas conectada a tabelas dimensão, otimizando a performance e a flexibilidade das análises.

C

Modelo floco de neve, pois ao normalizar as tabelas dimensão, reduz a redundância e melhora a velocidade das consultas no Power BI.

D

Modelo plano, pois a ausência de joins melhora a escalabilidade do modelo ao lidar com grandes volumes de dados.

E

Modelo floco de neve, pois evita qualquer redundância ao dividir as dimensões em tabelas menores, garantindo um modelo mais eficiente.

Provas

Questão presente nas seguintes provas

3733841 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: CONSULPAM
Orgão: CONAB

Provas:

Analista de TI - Desenvolvimento de Sistemas
Provas ×

BI: Business Intelligence

Considere o seguinte modelo de dados no Power BI construído por um desenvolvedor:

•Tabela Vendas com colunas: Data, Produto, Quantidade, ValorTotal, ID_Cliente.
•Tabela Clientes com colunas: ID_Cliente, Nome, Segmento.

As tabelas estão relacionadas por ID_Cliente, em um relacionamento um-para-muitos de Clientes para Vendas. O desenvolvedor então cria a seguinte medida em DAX:

Total Vendas Segmento = CALCULATE( SUM(Vendas[ValorTotal]), ALL(Clientes[Segmento]) )

Diante do exposto, assinale a alternativa que apresenta o efeito dessa medida em um visual de tabela que mostra Clientes[Segmento] e Total Vendas Segmento.

A

A medida ignora o filtro de Segmento no visual, retornando o total geral de vendas para todos os segmentos, repetido em cada linha.

B

A medida respeita o filtro de Segmento no visual, retornando o total de vendas apenas para o segmento da linha correspondente.

C

A medida ignora todos os filtros do modelo, inclusive de tempo e cliente, retornando o total absoluto de vendas.

D

A medida retorna valores diferentes por linha, mas apenas se houver múltiplos produtos por segmento.

Provas

Questão presente nas seguintes provas

3733840 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: CONSULPAM
Orgão: CONAB

Provas:

Analista de TI - Desenvolvimento de Sistemas
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Os sistemas que empregam o Aprendizado de Máquina promovem funcionalidades inteligentes para seus usuários. Nesse contexto, existem diferentes tipos de aprendizado. Diante do exposto, assinale a alternativa CORRETA.

A

O aprendizado por rotulação caracteriza-se por treinar com entradas que possuem saídas conhecidas.

B

O aprendizado semi-supervisionado é conhecido por receber dados sem rótulos e buscar um equilíbrio ao tentar descobrir padrões ou estruturas ocultas por conta própria.

C

O aprendizado por reconhecimento é conhecido por aprender a partir de tentativa e erro, interagindo com um ambiente e recebendo recompensas ou punições com base em suas ações.

D

O aprendizado por transferência caracteriza-se pelo reaproveitamento do conhecimento adquirido em uma tarefa em outra tarefa relacionada, sendo empregado quando há poucos dados disponíveis para o novo problema.

Provas

Questão presente nas seguintes provas

3733839 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: CONSULPAM
Orgão: CONAB

Provas:

Analista de TI - Desenvolvimento de Sistemas
Provas ×

Big Data

Um Data Lake é um repositório centralizado que permite armazenar dados para uso em sistemas de diferentes tipos. Nesse contexto, considere as seguintes características:

I- Suporta tipos de dados estruturados, semiestruturados e não estruturados. II- Custo de armazenamento elevado. III- Os dados são interpretados no momento da leitura. IV- Apresenta flexibilidade baixa/moderada.
Assinale a alternativa que traz características inerentes ao Data Lake.

Provas

Questão presente nas seguintes provas

3733838 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: CONSULPAM
Orgão: CONAB

Provas:

Analista de TI - Desenvolvimento de Sistemas
Provas ×

BI: Business IntelligenceData Warehouse

O Data Warehouse (DW) é um repositório de dados históricos capaz de produzir indicadores e evolução de valores ao longo de um grande intervalo de tempo. Diante do exposto, assinale a alternativa CORRETA.

A

Em um DW, os dados são organizados de acordo com os campos de interesse para a geração de relatórios operacionais.

B

Em um DW, os dados de diferentes fontes são unificados de forma padronizada e consistente, eliminando conflitos de nomenclatura e discrepância entre unidades de medida.

C

Em um DW, os dados podem ser alterados ou atualizados, mantendo sempre a versão mais recente e única da verdade.

D

Em um DW, os dados históricos são removidos na análise de tendências, variações e relações ao longo do tempo, pois nem todo dado está associado a um ponto no tempo.