Questões do Concurso CVM - FGV

3219746 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Fundamentos de ProgramaçãoLógica de Programação
LinguagensPython

Igor, analista de dados da CVM, escreveu e rodou o código a seguir.

from nltk.corpus import stopwords from nltk.tokenize import word_tokenize
texto = "Eu sou um analista de dados da CVM!"
stop_words = set(stopwords.words('portuguese')) tokens = word_tokenize(texto)
tokens_processados = [w for w in tokens if not w in stop_words]
print(tokens_processados)

Considerando que o código foi executado sem erros e sabendo que Igor está usando Python 3.10.12 e NLTK 3.8.1, a saída do terminal foi:

Provas

Questão presente nas seguintes provas

3219745 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Um cientista de dados utiliza a biblioteca scikit-learn para treinar um estimador clf usando um conjunto de treinamento X1 e seu respectivo conjunto de atributos-alvo y. Posteriormente, o cientista estima os atributos-alvo do conjunto X2.

Para realizar o treinamento e a predição, o cientista de dados deve usar, respectivamente, os métodos:

Provas

Questão presente nas seguintes provas

3219744 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Inteligência Artificial

No método tensorflow.keras.layers.Dense(...), se nenhuma função de ativação é especificada, é utilizada por padrão a função:

Provas

Questão presente nas seguintes provas

3219743 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Compilação e Interpretação de CódigoAnálise Léxica
Compilação e Interpretação de CódigoAnálise Sintática
LinguagensPython

Considere o código python a seguir.

import spacy

nlp = spacy.load("pt_core_news_lg")

doc = nlp("O rato roeu a roupa do rei de Roma")

print(doc[2].pos_, doc[2].dep_)

Os valores exibidos pela última linha são:

Provas

Questão presente nas seguintes provas

3219742 Ano: 2024
Disciplina: TI - Segurança da Informação
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Conceitos BásicosTerminologiaRisco
Proteção de DadosAnonimização e Pseudonimização
Proteção de DadosProteção de Dados Pessoais

Uma certa organização gostaria de compartilhar dados com um grupo de pesquisadores de uma universidade para a condução de um estudo sobre problemas ergonômicos nos seus escritórios. Entre os dados coletados, há informações sensíveis sobre seus funcionários; portanto, o responsável pela coleta decidiu anonimizar os dados. Isso foi feito removendo-se nomes e outros campos identificadores e adicionando-se um número identificador próprio a cada funcionário. Dessa forma, a identidade dos funcionários seria preservada. Após a verificação de uma amostra, o pesquisador responsável pelo estudo recomendou medidas que deveriam ser aplicadas antes que os dados pudessem ser aceitos para o estudo.

O problema que mais provavelmente motivou a recomendação do pesquisador e uma medida que pode mitigar esse problema são, respectivamente:

A

os dados podem ser reidentificados usando uma combinação dos campos restantes → embaralhamento dos campos;

B

o número identificador não é suficiente para separar os dados → hashing usando os campos restantes;

C

os dados podem ser reidentificados utilizando dados externos ao conjunto compartilhado → privacidade diferencial;

D

os dados podem ser reidentificados através de engenharia reversa do número identificador → randomização não linear dos identificadores;

E

o campos restantes podem ser usados para deduzir informação não inclusa no conjunto de dados → k-anonimato.

Provas

Questão presente nas seguintes provas

3219741 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

ProgramaçãoPythonPytorch

Considere o código python a seguir.

import torch
from torch import nn, Tensor

class CVMNet(nn.Module):
  def __init__(self,
              dim_in: int,
              dim_hidden: int,
              n_classes: int):
    super().__init__()
    self.i_layer = nn.Linear(dim_in, dim_hidden)
    self.h_layer = nn.Sequential(
      nn.Linear(dim_hidden, dim_hidden // 2),
      nn.Tanh()
  )
  self.o_layer = nn.Sequential(
    nn.Dropout(0.2),
    nn.Linear(dim_hidden // 2, n_classes),
    nn.Softmax(dim=-1)
  )

  def forward(self, x: Tensor):
    return self.o_layer(self.h_layer(self.i_layer(x)))

model = CVMNet(400, 100, 3)
pred = model(torch.eye(20).flatten()).detach()

Sobre a variável pred, é correto afirmar que:

Provas

Questão presente nas seguintes provas

3219740 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Um dos principais fatores que tornam viável a aplicação de modelos grandes de linguagem (LLMs) é o controle do espaço de probabilidade de tokens através da redução de dimensionalidade do vocabulário, sem perda da capacidade de reconstruir qualquer token válido da linguagem sendo modelada.

Considerando esse objetivo, dois algoritmos que podem ser utilizados para esse fim são:

Provas

Questão presente nas seguintes provas

3219739 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesIA Generativa e LLMs

Considere-se a aplicação de um modelo grande de linguagem (LLM) com 3 bilhões de parâmetros, distribuído em formato não quantizado, meia-precisão.

A quantidade mínima de memória necessária para carregar os pesos do modelo para inferência (sem gradientes), considerando apenas o espaço ocupado pelos pesos, é:

Provas

Questão presente nas seguintes provas

3219738 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoTratamento de Dados Ausentes

Ao receber um conjunto de dados para elaborar um modelo preditivo, uma equipe de analistas de dados percebeu que havia uma quantidade significativa de dados faltantes em certos atributos. Foi então debatido o uso de duas técnicas para lidar com esse problema: (1) remoção de observações contendo dados ausentes e (2) “inputação” multivariável, sendo que apenas uma das duas seria aplicada.

Duas características do conjunto de dados que devem ser prioritariamente consideradas na escolha entre as duas técnicas são:

A

o intervalo dos atributos com dados faltantes e a fração de dados faltantes;

B

o número de observações e a fração de dados faltantes;

C

a fração de atributos com dados faltantes e o intervalo dos atributos com dados faltantes ;

D

uma medida de dependência estatística entre os atributos e a fração de atributos com dados faltantes;

E

o número de observações e uma medida de dependência estatística entre os atributos.

Provas

Questão presente nas seguintes provas

3219737 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CVM

Provas:

Analista da CVM - TI/Ciência de Dados
Provas ×

Para ser utilizado em um modelo neural de regressão, um conjunto de dados precisa ser tratado de tal forma que todos os atributos de entrada sejam representados como um ou mais valores numéricos no intervalo [0, 1].

Os atributos de uma observação são: idade (inteiro >= 18), escolaridade (fundamental, médio, superior, pós-graduação), estado de residência (Acre, Alagoas, …, Tocantins, incluindo Distrito Federal) e local de trabalho (empresa, home office, misto).

O número mínimo de valores necessários para representar uma observação com os atributos acima descritos para o modelo de regressão, de forma que não ocorra perda de informação ordinal nem inserção de vieses nos dados, é: