3862190 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.

A sequência correta, de cima para baixo, é:

Provas

Questão presente nas seguintes provas

3862189 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

As Redes Neurais Recorrentes (RNNs) são projetadas para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas anteriores através de loops internos na sua arquitetura. Entre os algoritmos mais utilizados, destacam-se o Long Short-Term Memory (LSTM) e o Gated Recurrent Unit (GRU), ambos projetados para preservar informações ao longo do tempo e superar o desafio do desaparecimento do gradiente. Além disso, técnicas fundamentais como softmax, backpropagation e o processo feedforward são fundamentais para o treinamento e a eficácia das RNNs. Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é:

A

a função softmax pode ser usada na camada de saída das RNNs para realizar tarefas de regressão, convertendo os logits em valores contínuos que representam diferentes magnitudes.

B

durante o processo de feedforward em redes neurais, incluindo as RNNs, a informação é processada sequencialmente da camada de entrada até a camada de saída, utilizando funções de ativação para introduzir não-linearidade.

C

o backpropagation é o método pelo qual o erro é propagado de volta pela rede para atualizar os pesos, utilizando o gradiente do erro em relação a cada peso para fazer ajustes que minimizem o erro total da rede.

D

a função softmax na camada de saída de uma RNN é crucial para problemas de classificação, onde os logits são transformados em probabilidades que somam 1, facilitando a determinação da classe mais provável para a entrada dada.

E

o processo de feedforward e backpropagation em RNNs inclui o cálculo de gradientes para cada etapa temporal, ajustando os pesos não apenas com base na saída atual, mas também considerando a influência de entradas anteriores.

Provas

Questão presente nas seguintes provas

3862186 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:

A

previsão de financiamento de projetos com o objetivo de calcular o valor de financiamento que um projeto pode receber, baseando-se em características do projeto, atributos dos pesquisadores envolvidos e dados históricos de financiamento de projetos similares; trata-se um aprendizado supervisionado com algoritmo de regressão, que pode ser implementado por uma regressão polinomial ou regressão com regularização.

B

detecção de comunidades de pesquisa com o objetivo de identificar grupos dentro de um campo específico, com base na análise de coautoria e citações entre pesquisadores. Trata-se de um aprendizado não supervisionado com algoritmo de clusterização, que pode ser implementado por SVMs – Support Vector Machines.

C

análise de tendências de pesquisa com o objetivo de identificar áreas emergentes de pesquisa e tendências ao longo do tempo com base em análise de tópicos em publicações. Trata-se de um aprendizado não supervisionado com algoritmo de modelagem de tópicos, como LDA – Latent Dirichlet Allocation.

D

análise de sentimentos de publicações com o objetivo de avaliar revisões e comentários e identificar feedbacks predominantemente positivos ou negativos; trata-se de um aprendizado supervisionado, que pode ser implementado com Redes Neurais Recorrentes (RNN) e Long Short Term Memory (LSTM).

E

classificação de projetos com o objetivo de categorizar projetos de acordo com critérios relevantes, como disciplina científica, tipo de financiamento, escopo, entre outros; trata-se de um aprendizado supervisionado, que pode ser implementado por árvores de decisão.

Provas

Questão presente nas seguintes provas

3862182 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

BI: Business IntelligenceETL/ELT

O campo da Ciência de Dados é dinâmico e está em constante evolução, com o desenvolvimento de tecnologias e ferramentas que tornam a análise de dados mais eficiente e acessível. Uma dessas ferramentas é a biblioteca Pandas para a linguagem de programação Python. Por ser uma biblioteca de análise de dados conhecida principalmente por suas estruturas de dados poderosas que facilitam a manipulação de dados, como dataframes, é amplamente utilizada em processos de ETL (Extract, Transform and Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de dados, como, por exemplo, bancos de dados relacionais e Data Lakes.

Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.

import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)

Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.

Sobre as afirmativas acima, pode-se dizer que:

Provas

Questão presente nas seguintes provas

3862169 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - TI/Análise e Desenvolvimento de Sistemas
Provas ×

BI: Business IntelligenceData Warehouse

O ETL (extract, transformation, and load) é considerado uma das ferramentas mais importantes para implementação de um Data Warehouse. Diante deste contexto, é INCORRETO afirmar que:

A

a primeira etapa do ETL consiste em obter e compreender os dados de origem para posterior manipulação.

B

durante a etapa de transformação, o processo de ETL adiciona valor para os dados com as tarefas de limpeza e conformidade.

C

a carga é uma etapa opcional no processo de ETL e pode ser ignorada, em alguns casos específicos.

D

os dados de origem de um processo de ETL podem ser obtidos de bancos de dados pertencentes a diversos sistemas.

E

é aceitável criar um banco de dados normalizado exclusivo para suporte ao processo de ETL.

Provas

Questão presente nas seguintes provas

3862168 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - TI/Análise e Desenvolvimento de Sistemas
Provas ×

BI: Business IntelligenceData Warehouse

Sobre as arquiteturas de Data Warehouse e a Modelagem Dimensional é INCORRETO afirmar que:

A

um Data Warehouse, tipicamente, armazena os dados históricos provenientes de bancos de dados de outros sistemas.

B

as tabelas do tipo “Dimensão” tendem a ter mais registros do que as tabelas do tipo “Fato”.

C

as tabelas do tipo “Fato” armazenam as medidas resultantes dos eventos de processos de negócios de uma organização.

D

cada processo de negócio é representado por um modelo de dados com uma tabela do tipo “Fato” relacionada a um conjunto de tabelas do tipo “Dimensão”.

E

as tabelas do tipo “Dimensão” armazenam o contexto associado a um evento de processos de negócios.

Provas

Questão presente nas seguintes provas

3862166 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - TI/Análise e Desenvolvimento de Sistemas
Provas ×

Big Data

Em relação às tecnologias utilizadas em Big Data, avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I – O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuídos otimizado para dados não estruturados.

II – Os Bancos de Dados NoSQL podem tratar grandes volumes de dados estruturados, semiestruturados e não estruturados.

III – O paradigma de programação MapReduce divide o trabalho em tarefas de mapeamento e redução para manipulação de dados distribuídos.

As afirmativas I, II e III são, respectivamente:

Provas

Questão presente nas seguintes provas

3862149 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - TI/Análise e Desenvolvimento de Sistemas
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Uma das abordagens para a tarefa de classificação é conhecida pelo termo Support Vector Machine (SVM). A extensão da abordagem SVM para uma resposta quantitativa em vez de qualitativa chama-se:

Provas

Questão presente nas seguintes provas

3861910 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Ciência de Dados em Saúde
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Em relação ao processamento de linguagem natural, NÃO é correto afirmar que:

A

os modelos baseados em n-gramas recuperam uma quantidade imensa de informação em um idioma e podem ter bom desempenho em identificação de idioma e correção ortográfica.

B

é importante a seleção de características e o pré processamento para eliminar anomalias.

C

a classificação de texto pode ser feita com modelos de n-gramas com qualquer algoritmo de classificação tradicional.

D

sistemas de recuperação de informação utilizam um modelo de linguagem simples baseado em saco de palavras e conseguem bons desempenhos em termos de cobertura e precisão com corpora muito grandes de texto.

E

sistemas de extração de informação utilizam um modelo mais complexo que inclui noções limitadas de sintaxe e semântica e podem ser construídos a partir de autômatos de estado finito.

Provas

Questão presente nas seguintes provas

3861909 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Ciência de Dados em Saúde
Provas ×

Data Mining

Analise as afirmativas a seguir, em relação à mineração de padrões frequentes:

I. Seu objetivo é extrair conjuntos de itens frequentes de um banco de dados.
II. Um exemplo de padrão frequente são as regras de associação.
III. Dado um conjunto de itens X = {x1, x2,…,xm} e um conjunto de transações T = {t1, t2, …, tn}, um subconjunto de X, S, é chamado de conjunto de itens frequentes se S ocorre em uma porcentagem de todas as transações em T que excede um limite, denominado suporte.
IV. O suporte de um conjunto de itens Y, suporte(Y), é definido como o número de transações em T que contêm o conjunto de itens Y.

Das afirmativas acima, é correto afirmar que: