Magna Concursos

Foram encontradas 4.990 questões.

3862190 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.


A sequência correta, de cima para baixo, é:
 

Provas

Questão presente nas seguintes provas
3862189 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
As Redes Neurais Recorrentes (RNNs) são projetadas para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas anteriores através de loops internos na sua arquitetura. Entre os algoritmos mais utilizados, destacam-se o Long Short-Term Memory (LSTM) e o Gated Recurrent Unit (GRU), ambos projetados para preservar informações ao longo do tempo e superar o desafio do desaparecimento do gradiente. Além disso, técnicas fundamentais como softmax, backpropagation e o processo feedforward são fundamentais para o treinamento e a eficácia das RNNs. Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é:
 

Provas

Questão presente nas seguintes provas
3862186 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:
 

Provas

Questão presente nas seguintes provas
3862182 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
O campo da Ciência de Dados é dinâmico e está em constante evolução, com o desenvolvimento de tecnologias e ferramentas que tornam a análise de dados mais eficiente e acessível. Uma dessas ferramentas é a biblioteca Pandas para a linguagem de programação Python. Por ser uma biblioteca de análise de dados conhecida principalmente por suas estruturas de dados poderosas que facilitam a manipulação de dados, como dataframes, é amplamente utilizada em processos de ETL (Extract, Transform and Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de dados, como, por exemplo, bancos de dados relacionais e Data Lakes.

Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.

import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)

Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.

Sobre as afirmativas acima, pode-se dizer que:
 

Provas

Questão presente nas seguintes provas
3862169 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
O ETL (extract, transformation, and load) é considerado uma das ferramentas mais importantes para implementação de um Data Warehouse. Diante deste contexto, é INCORRETO afirmar que:
 

Provas

Questão presente nas seguintes provas
3862168 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Sobre as arquiteturas de Data Warehouse e a Modelagem Dimensional é INCORRETO afirmar que:
 

Provas

Questão presente nas seguintes provas
3862166 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Em relação às tecnologias utilizadas em Big Data, avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I – O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuídos otimizado para dados não estruturados.

II – Os Bancos de Dados NoSQL podem tratar grandes volumes de dados estruturados, semiestruturados e não estruturados.

III – O paradigma de programação MapReduce divide o trabalho em tarefas de mapeamento e redução para manipulação de dados distribuídos.


As afirmativas I, II e III são, respectivamente:
 

Provas

Questão presente nas seguintes provas
3862149 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Uma das abordagens para a tarefa de classificação é conhecida pelo termo Support Vector Machine (SVM). A extensão da abordagem SVM para uma resposta quantitativa em vez de qualitativa chama-se:
 

Provas

Questão presente nas seguintes provas
3861910 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Em relação ao processamento de linguagem natural, NÃO é correto afirmar que:
 

Provas

Questão presente nas seguintes provas
3861909 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ
Analise as afirmativas a seguir, em relação à mineração de padrões frequentes:

I. Seu objetivo é extrair conjuntos de itens frequentes de um banco de dados.
II. Um exemplo de padrão frequente são as regras de associação.
III. Dado um conjunto de itens X = {x1, x2,…,xm} e um conjunto de transações T = {t1, t2, …, tn}, um subconjunto de X, S, é chamado de conjunto de itens frequentes se S ocorre em uma porcentagem de todas as transações em T que excede um limite, denominado suporte.
IV. O suporte de um conjunto de itens Y, suporte(Y), é definido como o número de transações em T que contêm o conjunto de itens Y.

Das afirmativas acima, é correto afirmar que:
 

Provas

Questão presente nas seguintes provas