3686008 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

ProgramaçãoPythonNumPy
ProgramaçãoPythonPandas
ProgramaçãoPythonScikit-learn (Sklearn)
ProgramaçãoPythonTensorFlow/Keras

Um cientista de dados deseja analisar um conjunto de dados tabular, pré processá-lo e treinar um modelo de rede neural para prever valores contínuos. Ele utiliza Pandas para manipulação dos dados, Scikit-learn para normalização e TensorFlow/Keras para construir o modelo.

Considere o seguinte código em Python:

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import tensorflow as tf
from tensorflow import keras
# 1. Carregar os dados
df = pd.DataFrame({
    "feature1": [10, 20, 30, 40, 50],
    "feature2": [5, 15, 25, 35, 45],
    "target": [100, 200, 300, 400, 500]
})
# 2. Selecionar apenas as colunas de entrada (features)
X = df[["feature1", "feature2"]]
y = df["target"]
# 3. Normalizar os dados de entrada
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
# 4. Criar um modelo de rede neural para regressão
modelo = keras.Sequential([
    keras.Input(shape=(X_scaled.shape[1],)), # Definir a camada de entrada explicitamente
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(8, activation='relu'),
    tf.keras.layers.Dense(1, activation='linear') # Saída contínua
])
# 5. Compilar e treinar o modelo
modelo.compile(optimizer='adam', loss='mse')
modelo.fit(X_scaled, y, epochs=10, batch_size=2, verbose=0)

Com base no código apresentado, assinale a alternativa correta sobre a execução e o comportamento desse modelo.

A

O código implementa um modelo de classificação, pois a ativação linear na última camada indica que a saída será categórica.

B

A normalização dos dados de entrada não é necessária para redes neurais, pois o algoritmo Adam, já ajusta os pesos automaticamente.

C

A arquitetura do modelo está incorreta, pois redes neurais para regressão devem sempre conter uma camada de ativação softmax na saída.

D

O código cria um modelo de aprendizado profundo para regressão, onde os valores de entrada são normalizados e a saída é uma variável contínua, tornando adequada a ativação linear na última camada.

E

O código não funcionará corretamente, porque a normalização MinMaxScaler não é compatível com redes neurais em TensorFlow/Keras.

Provas

Questão presente nas seguintes provas

3686005 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

ProgramaçãoLinguagem R

Considere os dois trechos de código a seguir, ambos escritos na Linguagem R. O primeiro utiliza o pacote tidyverse, enquanto o segundo utiliza caret para o mesmo propósito.

Código 1 (tidyverse)

library(tidyverse)
set.seed(123)
dados <- tibble(
  X1 = rnorm(100),
  X2 = rnorm(100),
  Y = sample(c("A", "B"), 100, replace = TRUE)
)
dados_treino <- dados %>% sample_frac(0.7)
dados_teste <- anti_join(dados, dados_treino)

Código 2 (carret)

library(caret)
set.seed(123)
dados <- data.frame(
  X1 = rnorm(100),
  X2 = rnorm(100),
  Y = sample(c("A", "B"), 100, replace = TRUE)
)
indices <- createDataPartition(dados$Y, p = 0.7,
                               list = FALSE)
dados_treino <- dados[indices, ]
dados_teste <- dados[-indices, ]

Em relação aos códigos apresentados, assinale a alternativa correta.

A

Ambos os códigos garantem que a proporção da variável de saída seja mantida na divisão entre treino e teste, evitando possíveis desbalanceamentos.

B

O primeiro código seleciona uma parte dos dados de maneira totalmente aleatória, sem se preocupar com a distribuição da variável de saída, enquanto o segundo código faz a divisão garantindo que as proporções da variável de saída sejam mantidas nos dois conjuntos.

C

Os dois códigos realizam a divisão dos dados utilizando a mesma estratégia, sem diferenças na forma como as observações são separadas entre treino e teste.

D

O primeiro código apresenta uma inconsistência na forma como o conjunto de teste é gerado, podendo resultar na seleção de observações duplicadas ou na omissão de algumas delas.

E

O segundo código realiza uma divisão aleatória simples, sem nenhuma preocupação com a distribuição da variável de saída entre os conjuntos de treino e teste.

Provas

Questão presente nas seguintes provas

3686002 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

BI: Business Intelligence

Uma empresa está implementando uma estratégia de Business Intelligence (BI) para melhorar a análise de seus dados operacionais. Para isso, a equipe de dados precisa criar dashboards interativos e realizar análises avançadas usando Power BI e Tableau.

Durante o desenvolvimento dos relatórios, os analistas se depararam com os seguintes desafios:

• Precisam criar uma métrica personalizada para calcular a média ponderada de preços com base no volume de vendas.

• Desejam otimizar o tempo de carregamento ao lidar com milhões de registros armazenados em um banco de dados relacional.

• Precisam implementar um filtro dinâmico que permita ao usuário selecionar intervalos de datas personalizados sem afetar cálculos em outros gráficos.

Com base nos desafios acima, assinale a alternativa que apresenta as melhores soluções utilizando as funcionalidades nativas do Power BI e do Tableau.

A

No Power BI, a melhor abordagem é criar uma média ponderada manualmente em Excel antes da importação dos dados, enquanto no Tableau, o filtro dinâmico pode ser configurado apenas com parâmetros fixos.

B

No Power BI, a média ponderada pode ser calculada com DAX usando SUMX(), a otimização de carregamento pode ser feita ativando o DirectQuery e o filtro dinâmico pode ser configurado com um "Slicer de Datas" sem conexões cruzadas. No Tableau, a média ponderada pode ser criada com um campo calculado em LOD (Level of Detail), e o filtro dinâmico pode ser ajustado usando um "Context Filter".

C

No Power BI, a média ponderada deve ser calculada usando somente a função AVERAGE(), e a melhor abordagem para lidar com milhões de registros é importar todos os dados para o modo Import, pois isso sempre melhora a performance. No Tableau, filtros dinâmicos não são possíveis sem alterar os cálculos nos gráficos.

D

No Power BI, cálculos avançados como médias ponderadas exigem a criação de medidas em SQL dentro da fonte de dados, pois DAX não suporta esse tipo de operação. No Tableau, filtros contextuais devem ser evitados, pois reduzem a eficiência dos dashboards.

E

Power BI e Tableau não possuem suporte nativo para cálculos de médias ponderadas e filtros dinâmicos devem ser aplicados, exclusivamente, no banco de dados antes da importação dos dados para otimizar a performance.

Provas

Questão presente nas seguintes provas

3686000 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

Data Mining

Uma rede de supermercados deseja entender os padrões de compra dos clientes para organizar melhor seus produtos e otimizar suas estratégias de vendas. Para isso, a equipe de análise de dados decidiu utilizar um algoritmo de descoberta de regras de associação para identificar itens, frequentemente, comprados juntos.

Assinale a alternativa que representa a métrica fundamental para avaliar a relevância de uma regra de associação.

Provas

Questão presente nas seguintes provas

3685999 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

Em aprendizado de máquina, classificadores binários e multiclasses são usados para categorizar dados em duas ou mais classes. Considere os cenários a seguir:

1. Um sistema de detecção de fraudes bancárias, onde cada transação deve ser classificada como fraudulenta ou não fraudulenta.

2. Um modelo de classificação de espécies de flores, onde cada flor pode ser categorizada como setosa, versicolor ou virginica.

Em relação aos cenários apresentados, assinale a alternativa que descreve os modelos mais adequados para cada tipo de problema.

A

O primeiro cenário exige um classificador binário, e um algoritmo adequado seria Regressão Logística, enquanto o segundo exige um classificador multiclasses, podendo ser resolvido com Árvores de Decisão.

B

Ambos os cenários exigem um classificador binário, pois a classificação sempre se baseia em decisões binárias internamente, independentemente do número de classes.

C

O primeiro cenário deve ser tratado com um algoritmo de clusterização, como K-Means, pois detectar fraudes exige agrupar comportamentos similares, enquanto o segundo pode ser resolvido com um modelo de regressão linear.

D

O primeiro cenário pode ser resolvido, apenas, com Redes Neurais Profundas, pois são os únicos modelos capazes de lidar com classificações binárias e multiclasses.

E

O primeiro problema exige aprendizado supervisionado, enquanto o segundo deve ser tratado exclusivamente com métodos de aprendizado não supervisionado, pois a separação das espécies de flores deve ser feita sem um conjunto de dados previamente rotulado.

Provas

Questão presente nas seguintes provas

3685998 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

BI: Business IntelligenceData Warehouse

Uma empresa deseja implementar uma arquitetura de dados robusta para dar suporte à análise e ao processamento diário de informações. A empresa já possui um sistema de OLTP, mas agora precisa de uma solução de OLAP para análise histórica e de tendências. Além disso, a equipe de TI está considerando a criação de Data Marts para áreas de marketing, vendas e finanças, com o objetivo de melhorar a tomada de decisões.

Com base no cenário apresentado, assinale a alternativa que melhor descreve a relação entre Data Marts, OLTP e OLAP.

A

OLTP é utilizado para consultas analíticas complexas e relatórios históricos, enquanto OLAP é usado para transações diárias em tempo real. Data Marts são criados para centralizar dados específicos de uma unidade de negócios de uma organização.

B

OLAP é utilizado para transações diárias e em tempo real, enquanto OLTP é usado para análise de dados históricos. Data Marts são criados para gerenciar os dados operacionais de toda a empresa, com foco em relatórios financeiros.

C

OLTP e OLAP são praticamente intercambiáveis e podem ser usados para transações e consultas analíticas, respectivamente. Data Marts são usados para armazenar dados não estruturados e não são alimentados por OLTP.

D

OLAP é focado em dados não estruturados e em tempo real, enquanto OLTP é utilizado para análises históricas e agregações. Data Marts são criados para centralizar dados operacionais da empresa.

E

OLTP é otimizado para transações rápidas e operações de leitura e escrita em tempo real, enquanto OLAP é utilizado para consultas analíticas e agregações de dados históricos. Data Marts são usados para armazenar subconjuntos de dados específicos para áreas da empresa.

Provas

Questão presente nas seguintes provas

3685992 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

A Inteligência Artificial tem sido amplamente utilizada para personalizar o ensino e otimizar diagnósticos médicos. No entanto, seu uso pode gerar efeitos adversos inesperados, especialmente em contextos de desigualdade social.

Considerando as implicações éticas e práticas da IA em setores essenciais, qual abordagem representa um uso responsável da tecnologia?

A

Criar sistemas que automatizem completamente o diagnóstico médico e a formulação de tratamentos, eliminando a necessidade de análise por profissionais da saúde.

B

Substituir professores por assistentes virtuais baseados em IA para garantir padronização e eficiência no ensino.

C

Personalizar o ensino e o diagnóstico médico com IA, mas fazendo com que a tecnologia complemente a atuação de especialistas e não os substitua.

D

Impedir a adoção de IA nesses setores, devido ao risco de ampliação das desigualdades sociais e erros críticos.

E

Utilizar IA exclusivamente em tarefas administrativas em tais setores para evitar qualquer impacto direto sobre pacientes e alunos.

Provas

Questão presente nas seguintes provas

3685990 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Inteligência Artificial e Aprendizado de Máquina
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

A transparência na Inteligência Artificial está relacionada à possibilidade de compreender e auditar decisões automatizadas, reduzindo riscos de opacidade algorítmica. No entanto, o conceito de transparência em IA não significa necessariamente que qualquer usuário consiga entender plenamente o funcionamento interno dos algoritmos. Considerando essa distinção, qual das abordagens a seguir melhor representa uma estratégia de transparência aplicada à IA?

A

Divulgar integralmente o código-fonte dos algoritmos, permitindo que qualquer usuário possa analisar e compreender o funcionamento interno da IA.

B

Fornecer explicações acessíveis e adaptadas ao público interessado, de modo que usuários, reguladores e especialistas possam interpretar e auditar as decisões da IA.

C

Restringir o acesso às informações sobre os critérios de decisão da IA, para evitar exploração indevida por usuários mal-intencionados.

D

Eliminar qualquer exigência de transparência, pois modelos complexos, como redes neurais profundas, são intrinsecamente opacos e impossíveis de serem explicados.

E

Adotar apenas sistemas de IA simbólica, pois esses são naturalmente mais interpretáveis do que modelos baseados em aprendizado profundo.

Provas

Questão presente nas seguintes provas

3685656 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Ciência de Dados
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

As Árvores de Decisão são algoritmos de aprendizagem supervisionada usados para classificação e regressão, modelando decisões com base em regras derivadas dos dados. Elas são amplamente utilizadas em diversas áreas, como saúde, finanças e análise de risco.
Como exemplo, considere a Árvore de Decisão (fictícia), a seguir, que classifica pacientes com base no risco de ter um infarto. As decisões são feitas com base em três critérios: idade, peso e se é fumante, ou não.

Enunciado 3685656-1

Em relação ao funcionamento das Árvores de Decisão, assinale a alternativa que descreve seu princípio de operação e comportamento na modelagem de dados.

A

A complexidade da árvore pode ser ajustada para evitar overfitting, garantindo um modelo mais generalizável para novos dados.

B

As Árvores de Decisão sempre resultam em classificações 100% precisas, pois seguem um conjunto fixo de regras baseadas em dados históricos.

C

As Árvores de Decisão não podem ser usadas para classificação, apenas para problemas de regressão numérica.

D

As decisões tomadas pela árvore são baseadas em cálculos probabilísticos de redes neurais profundas.

E

Quanto mais profunda for a árvore, melhor será seu desempenho, pois ela sempre aprende melhor os padrões dos dados.

Provas

Questão presente nas seguintes provas

3685644 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Especialista em Laboratório - Ciência de Dados
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Considere um problema de classificação binária onde deseja-se prever se um cliente comprará ou não um determinado produto, com base em características como idade, renda e histórico de compras. Em relação aos algoritmos de Machine Learning a seguir, assinale a alternativa que apresenta o algoritmo mais adequado para começar a abordagem desse problema de forma interpretável e eficiente em termos computacionais.