Questões do Concurso FIOCRUZ

3862188 Ano: 2024
Disciplina: Estatística
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Regressão

Considere a seguinte implementação de um modelo de regressão linear múltipla utilizando NumPy e scikit-learn, usado para prever o financiamento de projetos com base em características de projetos e pesquisadores. O código abaixo foi executado e algumas métricas de desempenho foram obtidas.

import numpy as np from sklearn.model_selection import train_ test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

X = np.array([[1, 50], [2, 60], [3, 70], [4, 80], [5, 90], [1, 55], [2, 65], [3, 75], [4, 85], [5, 95]]) y = np.array([100000, 120000, 150000, 200000, 250000, 110000, 130000, 170000, 230000, 290000]) X_train, X_test, y_train, y_test = train_ test_split(X, y, test_size=0.2, random_ state=0)

model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)

r2 = r2_score(y_test, y_pred) mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred)

print(f”R-Quadrado: {r2}, MSE: {mse}, RMSE: {rmse}, MAE: {mae}”)

Após executar o código, foram obtidas as seguintes métricas de desempenho:

R-Quadrado: 0.9020746527777778 , MSE: 156680555.5555556, R M S E : 1 2 5 1 7 . 2 1 0 3 7 4 3 4 2 8 2 3 , M A E : 10083.333333333343

Com base nessas informações, analise as observações abaixo.

I. O valor de R-Quadrado próximo de 1 indica que o modelo explica uma grande proporção da variância dos dados de financiamento. Isso sugere que o modelo tem um bom ajuste aos dados, sendo capaz de capturar uma grande parte da relação entre as variáveis independentes e a variável dependente.

II. Um valor de MSE de aproximadamente 156 milhões sugere que, em média, o quadrado dos erros das previsões do modelo em relação aos valores reais é significativo. Isso indica que o modelo tem um bom ajuste de acordo e não existem erros consideráveis nas previsões.

III. Um MAE de aproximadamente 10083 sugere que, em média, as previsões do modelo desviam cerca de 10083 unidades dos valores reais. Comparado ao RMSE, o MAE não dá um peso tão grande a erros maiores, o que sugere que o modelo pode ter um número relativamente consistente de pequenos a moderados erros de previsão.

IV.A diferença entre o RMSE e o MAE sugere que o modelo pode estar lidando com alguns outliers ou previsões particularmente imprecisas que afetam mais o RMSE, pois o RMSE penaliza mais erros maiores do que erros menores.

Sobre as afirmativas acima, pode-se dizer que:

Provas

Questão presente nas seguintes provas

3862187 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Linguagens

O scikit-learn é uma biblioteca de aprendizado de máquina para Python que fornece uma ampla variedade de classes e funções para análise de dados e modelagem de Machine Learning. Ele inclui algoritmos para classificação, regressão, clusterização, redução de dimensionalidade, seleção de modelos, pré-processamento de dados, entre outros.
Entre as opções abaixo, a que apresenta corretamente a combinação de classes e funções do scikit-learn usadas para implementar regressão do tipo polinomial e classificação com árvores de decisão é:

A

para regressão polinomial: linear_model.PolynomialRegression e preprocessing.LinearFeatures; para árvores de decisão: tree.DecisionTreeRegressor

B

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeClassifier.

C

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeRegressor.

D

para regressão polinomial: linear_model.PolynomialFeatures e preprocessing.LinearRegression; para árvores de decisão: tree.DecisionClassifier.

E

para regressão polinomial: preprocessing.LinearFeatures e linear_model.PolynomialRegression; para árvores de decisão: tree.TreeDecisionClassifier.

Provas

Questão presente nas seguintes provas

3862186 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:

A

previsão de financiamento de projetos com o objetivo de calcular o valor de financiamento que um projeto pode receber, baseando-se em características do projeto, atributos dos pesquisadores envolvidos e dados históricos de financiamento de projetos similares; trata-se um aprendizado supervisionado com algoritmo de regressão, que pode ser implementado por uma regressão polinomial ou regressão com regularização.

B

detecção de comunidades de pesquisa com o objetivo de identificar grupos dentro de um campo específico, com base na análise de coautoria e citações entre pesquisadores. Trata-se de um aprendizado não supervisionado com algoritmo de clusterização, que pode ser implementado por SVMs – Support Vector Machines.

C

análise de tendências de pesquisa com o objetivo de identificar áreas emergentes de pesquisa e tendências ao longo do tempo com base em análise de tópicos em publicações. Trata-se de um aprendizado não supervisionado com algoritmo de modelagem de tópicos, como LDA – Latent Dirichlet Allocation.

D

análise de sentimentos de publicações com o objetivo de avaliar revisões e comentários e identificar feedbacks predominantemente positivos ou negativos; trata-se de um aprendizado supervisionado, que pode ser implementado com Redes Neurais Recorrentes (RNN) e Long Short Term Memory (LSTM).

E

classificação de projetos com o objetivo de categorizar projetos de acordo com critérios relevantes, como disciplina científica, tipo de financiamento, escopo, entre outros; trata-se de um aprendizado supervisionado, que pode ser implementado por árvores de decisão.

Provas

Questão presente nas seguintes provas

3862185 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Linguagens

Além da linguagem Python, a linguagem R é uma poderosa ferramenta estatística e gráfica utilizada por cientistas de dados em todo o mundo. Originária do ambiente acadêmico e com forte apoio da comunidade de estatística, R rapidamente se consolidou como uma das linguagens de programação de escolha para análise de dados, pesquisa científica, e qualquer aplicação que exija manipulação intensiva de dados, análise estatística ou visualização gráfica.
Considere o sumário exibido abaixo, saída do comando summary(df) da linguagem R:

Enunciado 4703065-1

Com base nesta informação, a opção que contém uma observação INCORRETA é:

A

a distribuição da variável financiamento_id mostra uma amplitude total de valores que vai de 1 a 8, evidenciando a variação total nos identificadores de financiamento dentro do conjunto de dados.

B

os indicadores de tendência central para projeto_id, com uma média de 2.375 e uma mediana de 2.500, refletem uma distribuição dos dados que tende a ser equilibrada, sem uma inclinação acentuada para valores mais altos ou mais baixos.

C

as variáveis fonte, data_inicio e data_termino são categorizadas como dados categóricos nominais, dado que representam informações qualitativas sem uma ordem inerente, e são armazenadas como caracteres, indicando o tipo de dado textual.

D

o terceiro quartil da variável valor é 10.000, o que indica que 75% dos valores de financiamento são iguais ou inferiores a 10.000, demonstrando a posição dos valores de financiamento no contexto de dispersão e distribuição de quartis.

E

a proximidade entre a média e a mediana dos valores de financiamento sugere uma distribuição altamente assimétrica, com uma presença significativa de valores extremos que distorcem a média, como é o caso do valor 22.000.

Provas

Questão presente nas seguintes provas

3862184 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Linguagens

Além do Pandas, NumPy, que é um acrônimo para Numerical Python, é outra biblioteca fundamental para a computação em Python. Ela serve como um dos pilares do ecossistema de ciência de dados e análise numérica, oferecendo suporte para poderosas estruturas de dados de arrays e matrizes multidimensionais.
Seja o dataframe Pandas df carregado da tabela Financiamento e um extrato de seus dados mostrado abaixo.

Enunciado 4703064-1

E seja o seguinte código NumPy, que transforma df em matriz e manipula suas linhas e colunas.
import numpy as np matriz = df.values subconjunto = matriz[matriz[:, 1] == 1, 4:6]

Das opções abaixo, a que apresenta corretamente o array extraído pela operação NumPy é:

A

[[‘2023-05-31’, 10000.0], [‘2023-06-30’, 4000.0], [‘2023- 11-30’, 7000.0]].

B

[[‘Finep’, ‘2023-02-01’], [‘Finep’, ‘2023-06-01’], [‘BNDES’, ‘2023-08-01’]].

C

[[‘1’, ‘Finep’], [‘1’, ‘Finep’], [‘1’, ‘BNDES’]].

D

[[‘2023-02-01’, ‘2023-05-31’], [‘2023-06-01’, ‘2023-06- 30’], [‘2023-08-01’, ‘2023-11-30’]].

E

[[‘10000.0’], [‘4000.0’], [‘7000.0’]].

Provas

Questão presente nas seguintes provas

3862183 Ano: 2024
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Linguagens

Quando se trabalha com grandes conjuntos de dados no Pandas, a eficiente alocação de memória torna-se crucial para manter um bom desempenho e evitar o esgotamento dos recursos do sistema. Dado este desafio, analise as opções abaixo para otimizar o uso da memória ao manipular grandes volumes de dados com Pandas.

I. Empregar categorias para dados textuais repetitivos ao invés de strings.
II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.

Sobre as afirmativas acima, pode-se dizer que:

Provas

Questão presente nas seguintes provas

3862182 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

BI: Business IntelligenceETL/ELT

O campo da Ciência de Dados é dinâmico e está em constante evolução, com o desenvolvimento de tecnologias e ferramentas que tornam a análise de dados mais eficiente e acessível. Uma dessas ferramentas é a biblioteca Pandas para a linguagem de programação Python. Por ser uma biblioteca de análise de dados conhecida principalmente por suas estruturas de dados poderosas que facilitam a manipulação de dados, como dataframes, é amplamente utilizada em processos de ETL (Extract, Transform and Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de dados, como, por exemplo, bancos de dados relacionais e Data Lakes.

Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.

import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)

Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.

Sobre as afirmativas acima, pode-se dizer que:

Provas

Questão presente nas seguintes provas

3862181 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - Cientista de Dados em Saúde
Provas ×

Modelagem de DadosDiagrama Entidade-Relacionamento (DER)
SQL

Para a construção de um sistema de apoio à pesquisa e desenvolvimento na área de saúde, um modelo ER associado deve abranger entidades essenciais que facilitam a gestão de dados de pesquisa, desenvolvimento de estudos epidemiológicos e monitoramento de saúde pública. Este sistema poderia auxiliar na análise de tendências, na resposta a emergências de saúde pública e no desenvolvimento de políticas de saúde baseadas em evidências.
Seja o diagrama ER apresentado abaixo, desenhado na notação crow’s foot, para um sistema de gestão de pesquisa.

Enunciado 4703060-1

Entre as opções abaixo, a que apresenta corretamente uma consulta SQL para retornar o valor total de financiamento de um projeto chamado “Inovação em Saúde” é:

A

SELECT SUM(valor) FROM Financiamento WHERE nome = ‘Inovação em Saúde’;

B

SELECT valor FROM Financiamento WHERE fonte = ‘Inovação em Saúde’;

C

SELECT SUM(valor) FROM Projeto WHERE nome = ‘Inovação em Saúde’;

D

SELECT valor FROM Financiamento WHERE projeto_id = ‘Inovação em Saúde’;

E

SELECT SUM(valor) FROM Financiamento WHERE projeto_id = (SELECT projeto_id FROM Projeto WHERE nome = ‘Inovação em Saúde’);

Provas

Questão presente nas seguintes provas

3862180 Ano: 2024
Disciplina: TI - Segurança da Informação
Banca: FIOCRUZ
Orgão: FIOCRUZ

Provas:

Tecnologista - TI/Análise e Desenvolvimento de Sistemas
Provas ×

Ataques e Golpes e Ameaças

Sobre ataques cibernéticos, enumere os tipos de ataques com suas respectivas descrições:
1-Spoofing 2-Phishing 3-SQL Injection 4-Cross-site scripting (XSS) 5-Negação de Serviço

( ) É um tipo de fraude eletrônica comumente cometida por golpistas que têm por objetivo roubar dados pessoais e financeiros de um usuário.

( ) método de ataque que explora vulnerabilidades de scripting entre sites.

( ) bloqueio de acesso devidamente autorizado a um recurso ou a geração de atraso nas operações e funções normais de um sistema, com a resultante perda da disponibilidade aos usuários autorizados.

( ) ato de falsificar a identidade da fonte de uma comunicação ou interação.

( ) ocorre quando o usuário mal intencionado consegue inserir uma série de instruções SQL dentro de uma consulta através da manipulação das entradas de uma aplicação

A sequência correta, de cima para baixo, é: