Questões do Concurso USP - FUVEST

3736442 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

O pré-processamento de textos é uma etapa importante¬¬no processo de análise e classificação de dados textuais. Ele visa transformar textos brutos em um formato adequado para ser utilizado em algoritmos de aprendizado de máquina. Entre as técnicas mais comuns no pré-processamento de textos, estão a remoção de stop words, a tokenização, a lematização e o estemização. Considere o texto original a seguir: "O carro estava muito sujo, então ele decidiu limpar o carro depois de um longo dia de trabalho. O carro ficou brilhante após a limpeza."
Com base nas técnicas de pré-processamento citadas, como ficará o texto original após a aplicação de tokenização e remoção de stop words?

Provas

Questão presente nas seguintes provas

3736441 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesIA Generativa e LLMs

Um modelo de linguagem baseado em unigramas foi treinado em um grande volume de textos em português. Esse modelo atribui probabilidades a palavras individuais, sem levar em consideração a ordem em que aparecem na sentença. Sabendo-se que a perplexidade é uma métrica que mede quão bem um modelo de linguagem prediz um texto, assinale a alternativa que melhor representa a perplexidade do modelo nas frases "qual sanduíche Maria comeu" e "Maria comeu o sanduíche".

A

As perplexidades das duas frases serão iguais, pois ambas contêm as mesmas palavras.

B

A perplexidade de "Maria comeu o sanduíche" será maior, pois a presença de "o" torna a sequência mais previsível.

C

A perplexidade de "qual sanduíche Maria comeu" será maior, pois a palavra "qual" tem uma probabilidade menor de ocorrência e é menos comum.

D

A perplexidade de "Maria comeu o sanduíche" será menor, pois o modelo tende a atribuir maior probabilidade à sequência de palavras com maior frequência.

E

A perplexidade de "qual sanduíche Maria comeu" será menor, pois a palavra "qual" ajuda a contextualizar melhor a sequência de palavras.

Provas

Questão presente nas seguintes provas

3736440 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Em aprendizado de máquina, a calibração de hiperparâmetros é um processo importante para otimizar o desempenho de um modelo. Considere o seguinte cenário: Você está treinando um modelo de Random Forest para prever o preço de imóveis e percebe que o desempenho do modelo não está satisfatório. Após uma análise, você decide calibrar os hiperparâmetros para tentar melhorar o modelo. Para isso, você seleciona os seguintes hiperparâmetros para calibração:

• n_estimators (número de árvores na floresta); • max_depth (profundidade máxima de cada árvore); • min_samples_split (número mínimo de amostras necessárias para dividir um nó).

Assinale a alternativa que apresenta a melhor abordagem para encontrar a combinação ideal desses hiperparâmetros.

A

Ajustar os hiperparâmetros manualmente, testando diferentes combinações de uma única vez, sem validação cruzada, até encontrar uma configuração que melhore o desempenho.

B

Utilizar a técnica de pesquisa aleatória (Random Search), testando uma combinação aleatória de valores para os hiperparâmetros, sem avaliar o desempenho em diferentes subdivisões do conjunto de dados.

C

Focar apenas no parâmetro n_estimators e testar os valores 50, 100 e 150, já que esse é o parâmetro mais importante para a Random Forest.

D

Usar a técnica de pesquisa em grade (Grid Search), testando todas as combinações possíveis de valores para n_estimators, max_depth e min_samples_split, e avaliar a performance a partir da validação cruzada.

E

Manter os hiperparâmetros padrões da biblioteca e esperar que o modelo se ajuste automaticamente, pois os hiperparâmetros padrões funcionam bem na maioria dos casos.

Provas

Questão presente nas seguintes provas

3736439 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Inteligência ArtificialMachine LearningAlgoritmos

Os algoritmos de clusterização são utilizados na ciência de dados para agrupar elementos semelhantes com base em suas características. Um dos métodos mais comuns para medir a similaridade entre pontos é a distância Euclidiana, que calcula o quão próximos ou distantes os elementos estão em um espaço multidimensional. Essa métrica é a base para a determinação da formação dos clusters em algoritmos como K-Means e DBSCAN. Uma empresa deseja agrupar clientes com base em seu comportamento de compra. Para isso, foram coletados dois atributos: a quantidade de produtos diferentes comprados no último mês (X) e o valor total gasto (em centenas de reais) (Y). A tabela, a seguir, apresenta os dados coletados de quatro clientes, que serão usados para gerar a matriz de distâncias com base na distância Euclidiana:

Cliente	Qtde de produtos (X)	Valor Gasto (Y)
A	2	3
B	5	7
C	1	4
D	6	2

Em relação à matriz de distância gerada, assinale a alternativa correta.

Provas

Questão presente nas seguintes provas

3736438 Ano: 2025
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

LinguagensPython

Analise o trecho de código Python a seguir:

1     a = [1,2,3,4,5,6,7,8,9,10]
2     for i in range (0, 10):
3         a[i] = a[i] + a[i-2]
4     print(a[i]*a[i-2] - a[i-1]*a[i-1])

Em relação ao trecho apresentado, assinale a alternativa que indica o conteúdo que será exibido na tela a partir da execução da linha 4 (print).

Provas

Questão presente nas seguintes provas

3736437 Ano: 2025
Disciplina: Estatística
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Regressão

Uma equipe de cientistas de dados desenvolve um modelo preditivo para estimar o preço de carros usados com base em variáveis como ano de fabricação, quilometragem, marca e número de proprietários anteriores.
Assinale a alternativa que apresenta a abordagem mais adequada para construir este modelo preditivo.

A

Utilizar um modelo de regressão linear simples que leva em conta apenas a quilometragem do carro.

B

Utilizar um modelo de regressão logística para classificar os carros como baratos ou caros.

C

Utilizar apenas variáveis numéricas e excluir variáveis categóricas como a marca do carro.

D

Utilizar um modelo de regressão polinomial que sempre considera a relação entre quilometragem e preço como uma curva quadrática.

E

Utilizar um modelo de regressão linear múltipla que considera todas as variáveis fornecidas (ano de fabricação, quilometragem, marca e número de proprietários anteriores).

Provas

Questão presente nas seguintes provas

3736436 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Uma ONG, especializada na busca por gatos desaparecidos, contratou uma empresa de tecnologia para desenvolver um sistema de classificação de imagens baseado em Aprendizado Profundo. O objetivo é que o sistema identifique gatos em fotos enviadas por usuários. Para isso, a empresa optou por utilizar Redes Neurais Convolucionais (CNNs), dada sua capacidade de extrair automaticamente padrões visuais hierárquicos. Durante o treinamento, os desenvolvedores perceberam que a rede estava obtendo alta acurácia no conjunto de treino, mas baixo desempenho no conjunto de teste. Além disso, ao inspecionar os mapas de ativação, notaram que a rede estava focando em características irrelevantes do fundo da imagem em vez de identificar os gatos corretamente.
E relação ao problema descrito, assinale a alternativa que apresenta a abordagem mais eficaz para aprimorar a capacidade de generalização de um modelo de aprendizado de máquina.

A

Aumentar a complexidade do modelo, utilizando o máximo de parâmetros possíveis, sem restrições.

B

Treinar o modelo exclusivamente com os dados de treinamento disponíveis, sem validação externa ou ajuste fino.

C

Implementar técnicas de regularização, como L1 ou L2, e utilizar validação cruzada para avaliar o desempenho e ajustar hiperparâmetros.

D

Reduzir drasticamente o conjunto de dados de treinamento para evitar sobreajuste, mesmo que isso comprometa a representatividade dos dados.

E

Ignorar a fase de pré-processamento de dados e utilizar os dados brutos diretamente no treinamento do modelo.

Provas

Questão presente nas seguintes provas

3736435 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

BI: Business IntelligenceOLAP e OLTP

Uma grande empresa do setor financeiro decidiu modernizar sua infraestrutura de dados para suportar análises preditivas e relatórios gerenciais avançados, além de manter a eficiência nas transações diárias de seus clientes. Atualmente, a empresa possui um banco de dados relacional tradicional que armazena transações bancárias em tempo real, mas enfrenta dificuldades ao executar consultas analíticas complexas, como identificação de padrões de fraude e segmentação de clientes com base no histórico de gastos. Diante desse cenário, a empresa considera a separação da sua arquitetura de dados em dois ambientes distintos: um banco de dados transacional (OLTP) e um ambiente analítico (OLAP).
Em relação ao contexto apresentado, assinale a alternativa correta.

A

A empresa pode continuar utilizando um único banco OLTP, desde que otimize seus índices e crie visões materializadas para melhorar a performance de consultas analíticas, eliminando a necessidade de um ambiente OLAP.

B

A empresa deve optar por um banco de dados NoSQL em substituição ao OLTP tradicional, pois bancos relacionais não são capazes de lidar com transações financeiras de forma eficiente.

C

O principal benefício de utilizar um OLAP nesse cenário é garantir alta disponibilidade e escalabilidade horizontal, melhorando a velocidade das transações diárias dos clientes.

D

O ambiente OLTP deve ser utilizado para armazenar transações bancárias e consultas operacionais em tempo real, enquanto o OLAP será responsável por consultas analíticas complexas, como detecção de fraudes e previsão de tendências.

E

Em uma arquitetura de Big Data moderna, não há mais distinção entre OLTP e OLAP, pois soluções como Apache Spark e Hadoop substituem qualquer necessidade de bancos de dados transacionais e analíticos separados.

Provas

Questão presente nas seguintes provas

3736434 Ano: 2025
Disciplina: TI - Banco de Dados
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

Conceitos e FundamentosConceitos Fundamentais de Banco de Dados
Banco de Dados Textual

Considere um Analista de Sistemas especializado em Ciência de Dados, designado para analisar grandes volumes de textos livres oriundos de interações dos clientes com a empresa, incluindo mensagens enviadas por chat e redes sociais, com o objetivo de extrair insights sobre a satisfação dos consumidores. Esses textos são classificados como dados

Provas

Questão presente nas seguintes provas

3736433 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de Sistemas
Provas ×

BI: Business Intelligence

No Power BI, a modelagem de dados é essencial para garantir desempenho e a correta interpretação das informações. Um modelo, no Power BI, consiste em uma ou mais tabelas e diversas relações entre elas (quando existir mais de uma tabela). Para garantir granularidade e eficiência nas visualizações e relatórios, a escolha do esquema de dados é fundamental.
Uma empresa está implementando um dashboard no Power BI para monitorar as vendas de seus produtos em diversas regiões do país. O banco de dados contém informações sobre:

• Vendas realizadas (data, valor, quantidade, produto vendido, vendedor e região).
• Detalhes dos produtos (código, categoria, marca e preço unitário).
• Informações dos clientes (nome, CPF, idade, estado civil e cidade).
• Registros de vendedores (nome, código do vendedor e equipe de vendas).

Considerando as melhores práticas de modelagem de dados no Power BI, qual esquema de dados é mais adequado para estruturar esse modelo e garantir performance e facilidade de análise?

A

Modelo plano, pois consolidar todas as informações em uma única tabela elimina a necessidade de relacionamentos, simplificando as consultas.

B

Modelo estrela, pois permite organizar os dados com uma tabela fato de vendas conectada a tabelas dimensão, otimizando a performance e a flexibilidade das análises.

C

Modelo floco de neve, pois ao normalizar as tabelas dimensão, reduz a redundância e melhora a velocidade das consultas no Power BI.

D

Modelo plano, pois a ausência de joins melhora a escalabilidade do modelo ao lidar com grandes volumes de dados.

E

Modelo floco de neve, pois evita qualquer redundância ao dividir as dimensões em tabelas menores, garantindo um modelo mais eficiente.