Questões do Concurso BNDES - CESGRANRIO

3357467 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Big Data

Em aplicações modernas de Processamento de Linguagem Natural, usando Grandes Modelos de Linguagem (Large Language Models – LLM) é comum a necessidade de usar informações relevantes que estão em documentos novos e privados, que não foram usados no pré-treinamento dos modelos de LLM. Considerando que esses documentos podem ser longos e em grande quantidade, que o tamanho do contexto usado na chamada à Application Programming Interface (API) da LLM é limitado, e ainda pensando que os custos de processar são muitas vezes calculados por quantidade de tokens, foi desenvolvida a técnica conhecida como Retrieval Augmented Generation (RAG).

Considerando-se esse contexto, qual é a característica da técnica RAG?

A

Compara a resposta da LLM aos documentos recuperados para verificar seu alinhamento com a resposta desejada.

B

Refina a LLM previamente com base nos documentos, evitando custos adicionais por contexto.

C

Realiza uma tarefa de recuperação de informação para selecionar as partes de documentos que devem ser enviadas dentro do contexto.

D

Revisa localmente todas as possibilidades combinatórias das partes de documentos escolhendo um número mínimo ótimo, reduzindo assim o custo de análise.

E

Usa chamadas recursivas a LLM para enviar todas as partes necessárias do documento.

Provas

Questão presente nas seguintes provas

3357466 Ano: 2024
Disciplina: TI - Sistemas Operacionais
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

LinuxComandosdf

Um analista financeiro está trabalhando com um conjunto de dados de clientes de um banco, armazenados em um DataFrame Pandas chamado clientes_df. Esse DataFrame possui as seguintes colunas: Nome, Idade, Dívida, Renda e Status. O analista deseja criar um novo DataFrame que contenha apenas os nomes e as dívidas dos clientes que possuem uma dívida maior que R$ 10.000,00, com o objetivo de gerar um relatório específico.

Considerando-se esse contexto, qual das seguintes linhas de código em Python com Pandas seleciona corretamente as colunas Nome e Dívida do DataFrame clientes_df e também filtra apenas as linhas em que a dívida dos clientes seja superior a R$ 10.000,00?

Provas

Questão presente nas seguintes provas

3357465 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

LinguagensPython

Um desenvolvedor está criando uma rede neural de 3 camadas, usando PyTorch para classificar amostras descritas por um vetor com 10 elementos. Ele já definiu parte da rede, conforme o extrato de código abaixo, e pretende definir a camada oculta como sendo composta de 5 nós, utilizando a função de ativação ReLU.

import torch
import torch.nn as nn

entrada = nn.Linear(10, 5)
oculta = #AQUI CRIAR CAMADA OCULTA COM 5 NOS E RELU
saida = nn.Linear(5, 1)

def forward(x):
x = torch.relu(entrada(x))
x = oculta(x)
x = torch.sigmoid(saida(x))

Considerando-se esse contexto, qual das linhas de código a seguir deve ocupar o comentário “#AQUI CRIAR CAMADA OCULTA COM 5 NOS E RELU” para definir corretamente a camada oculta?

Provas

Questão presente nas seguintes provas

3357464 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

BI: Business Intelligence
Inteligência ArtificialMachine Learning

Um cientista de dados está utilizando SHapley Additive exPlanations (SHAP) para entender a importância das variáveis em um modelo de aprendizado de máquina que prevê a probabilidade de um cliente deixar de ser assinante de um serviço (churn). Considere o seguinte conjunto de dados simplificado com três características para um cliente específico:

Característica	Valor	Contribuição Marginal ao Modelo – Valor de Shapley
Tempo de Assinatura	12 (meses)	0,05
Número de Reclamações	3	0,20
Número de Acessos ao Suporte	10	0,15

A previsão base do modelo, que representa a probabilidade estimada de um cliente se tornar um churn quando nenhuma das características individuais é considerada, é de 0,30.

Considerando-se esse contexto, qual é a probabilidade prevista pelo modelo para que esse cliente deixe de assinar o serviço?

Provas

Questão presente nas seguintes provas

3357463 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine Learning

Um pesquisador de ciência de dados foi encarregado de analisar a capacidade de um modelo de aprendizado de máquina em prever se um cliente é bom pagador. Para isso, possuía um conjunto de dados de testes rotulado, sobre o qual aplicou o modelo e obteve a matriz de confusão a seguir:

Enunciado 3842098-1

Considerando-se esse contexto, quais são, respectivamente, os valores aproximados, em 2 casas decimais, da precisão (precision) e da revocação (recall) obtidos pelo modelo?

Provas

Questão presente nas seguintes provas

3357462 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Controle de VersãoGit

Um programador estava trabalhando no branch solvebugio e acabou o serviço. Após fazer o commit final nesse branch, ele deseja passar todas as mudanças feitas no branch solvebugio para o branch main, fazendo a integração correta de mudanças.

Considerando-se esse contexto e as melhores práticas de controle de versão, quais comandos Git esse programador deve usar para realizar essa tarefa?

Provas

Questão presente nas seguintes provas

3357461 Ano: 2024
Disciplina: TI - Segurança da Informação
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Conceitos BásicosTerminologiaRisco

Uma equipe de desenvolvimento de Inteligência Artificial (IA) em uma empresa de tecnologia está implementando um sistema de recomendação baseado em aprendizado de máquina. Durante o processo de implementação, a equipe precisa estar atenta aos potenciais riscos e vulnerabilidades associados ao uso da IA. O sistema utiliza grandes volumes de dados históricos de clientes para treinar seus modelos. Há uma preocupação com a possibilidade de invasores manipularem a entrada de dados para enganar o modelo e gerar saídas indesejadas ou incorretas. A equipe deve também garantir que o modelo não exponha dados sensíveis dos clientes.

Considere as seguintes afirmativas com relação à mitigação dos riscos identificados:

I - adotar uma abordagem de fairness-aware learning para corrigir potenciais vieses no modelo, garantindo que as recomendações sejam justas para todos os grupos de usuários.

II - implementar métodos de robustness testing para simular ataques adversariais e avaliar a resiliência do modelo, e realizar auditorias regulares para identificar e corrigir vieses algorítmicos.

III - implementar técnicas de data augmentation para aumentar a diversidade dos dados de treinamento, reduzindo o risco de viés algorítmico, e adotar uma estratégia de monitoramento contínuo para detectar e mitigar ataques adversariais.

IV - utilizar técnicas de differential privacy durante o treinamento do modelo para proteger dados sensíveis e garantir que as previsões do modelo não revelem informações específicas dos clientes.

Estão corretas as seguintes afirmativas:

Provas

Questão presente nas seguintes provas

3357460 Ano: 2024
Disciplina: TI - Redes de Computadores
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Transmissão de DadosMeios de TransmissãoCabeamento FìsicoCabeamento Estruturado

Uma narrativa visual apresentada durante uma comunicação corporativa pode utilizar várias estratégias para assegurar que o storytelling seja eficaz.

Como funciona a prática conhecida como ‘lógica horizontal’?

A

A sequência formada pelos pontos principais de cada slide se assemelha a um storyboard, guiando o público de maneira coesa e lógica.

B

A leitura do título de cada slide possibilita o entendimento claro da narrativa principal que se deseja comunicar.

C

O documento ou a apresentação devem ser revisados por um colega do mesmo nível hierárquico para avaliar o conteúdo.

D

O documento ou a apresentação devem ser revisados por um superior para garantir a precisão do conteúdo.

E

Toda a informação em um slide reforça e complementa a si mesma.

Provas

Questão presente nas seguintes provas

3357459 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

LinguagensPython

Considere o seguinte trecho de código Python:

import json
from multiprocessing import Pool

def process_data(data):
  result = {}
  for item in data:
    if item in result:
      result[item] += 1
    else:
      result[item] = 1
   return result

def parallel_process(data):
  with Pool(4) as p:
    results = p.map(process_data, data)
    return results

def serialize_results(results, file_name):
  with open(file_name, 'w') as f:
    json.dump(results, f)

data = ["apple", "banana", "apple", "orange", "banana", "apple"]
processed_data = parallel_process(data)
serialize_results(processed_data, "output.json")

Esse código pretende contar a frequência de cada item na lista data, processando os dados em paralelo e serializando os resultados em um arquivo JSON. O resultado esperado é {"apple": 3, "banana": 2, "orange": 1}. É necessário que algo seja alterado para que o código funcione corretamente e produza o resultado esperado?

A

Nada precisa ser alterado, o código já produz o resultado esperado.

B

A função parallel_process deve ser removida, pois a paralelização não é necessária para esse tipo de operação.

C

A função process_data deve ser alterada para trabalhar com uma lista de listas, dividindo os dados entre os processos antes de contá-los.

D

A função parallel_process deve retornar o resultado da fusão das contagens parciais, somando os dicionários resultantes de cada processo.

E

A função serialize_results deve ser alterada para serializar o dicionário em vez da lista retornada pela função parallel_process.

Provas

Questão presente nas seguintes provas

3357458 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: BNDES

Provas:

Analista de TI - Ciência de Dados
Provas ×

Análise de DadosAnálise Exploratória

Uma empresa está desenvolvendo um dashboard interativo para monitorar o desempenho das vendas em tempo real. O objetivo é fornecer uma visão clara e acessível para diferentes níveis de usuários, desde gerentes executivos até analistas de dados. Foram definidos os seguintes requisitos:

1. Os dados de vendas precisam ser visualizados por região, produto e período de tempo.

2. O dashboard deve permitir aos usuários explorar dados específicos por meio de interações como filtros e drill-downs.

3. A organização dos elementos visuais deve ser intuitiva, priorizando informações críticas e mantendo um layout claro e acessível.

Com base nas boas práticas de design de dashboards, qual abordagem deve ser adotada para garantir que o dashboard seja eficaz e acessível para todos os usuários?

A

Centralizar o layout do dashboard em um gráfico de radar para comparar o desempenho das vendas por produto, sem necessidade de interatividade, e adicionar uma tabela detalhada com todos os dados brutos abaixo dos gráficos.

B

Escolher um layout minimalista, com gráficos de dispersão para todas as visualizações para facilitar o entendimento, e permitir que os usuários explorem detalhes dos dados por meio de cliques em pontos específicos dos gráficos, sem a necessidade de poluir a interface com legendas ou explicações adicionais.

C

Organizar o dashboard em seções, usando gráficos de barras empilhadas para comparar vendas por produto e período, com um layout responsivo que ajusta a visualização para diferentes dispositivos, e incluir filtros interativos para drill-down em dados regionais.

D

Utilizar gráficos de pizza para representar a distribuição de vendas por região, colocar todos os gráficos e tabelas em uma única página para evitar que o usuário precise navegar, e priorizar a quantidade de dados exibidos.

E

Utilizar um gráfico de bolhas para mostrar todas as variáveis em um único board, garantindo que todas as interações e drill-downs ocorram automaticamente ao passar o mouse sobre os elementos gráficos, sem necessidade de cliques.