Foram encontradas 4.990 questões.
O Processamento de Linguagem Natural (PLN) busca
melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução
dos modelos de Machine Learning tem desempenhado um
papel fundamental nesse processo, permitindo avanços
significativos em tarefas como tradução automática, análise
de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento
para transformar texto bruto em formas que possam ser
eficientemente analisadas e compreendidas. Numere a
2ª coluna pela primeira, considerando as técnicas e as
respectivas definições.
COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.
( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.
( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.
( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.
( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.
A sequência correta, de cima para baixo, é:
COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.
( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.
( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.
( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.
( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.
A sequência correta, de cima para baixo, é:
Provas
Questão presente nas seguintes provas
As Redes Neurais Recorrentes (RNNs) são projetadas
para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas
anteriores através de loops internos na sua arquitetura.
Entre os algoritmos mais utilizados, destacam-se o Long
Short-Term Memory (LSTM) e o Gated Recurrent Unit
(GRU), ambos projetados para preservar informações ao
longo do tempo e superar o desafio do desaparecimento
do gradiente. Além disso, técnicas fundamentais como
softmax, backpropagation e o processo feedforward são
fundamentais para o treinamento e a eficácia das RNNs.
Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é:
Provas
Questão presente nas seguintes provas
Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de
dados, objetivando a compreensão de padrões complexos
e a tomada de decisão baseada em dados. Esses modelos
permitem que cientistas de dados transformem grandes
volumes de dados brutos em insights acionáveis, previsões
e recomendações com precisão que frequentemente supera
análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:
Provas
Questão presente nas seguintes provas
O campo da Ciência de Dados é dinâmico e está em
constante evolução, com o desenvolvimento de tecnologias
e ferramentas que tornam a análise de dados mais eficiente
e acessível. Uma dessas ferramentas é a biblioteca Pandas
para a linguagem de programação Python. Por ser uma
biblioteca de análise de dados conhecida principalmente
por suas estruturas de dados poderosas que facilitam a
manipulação de dados, como dataframes, é amplamente
utilizada em processos de ETL (Extract, Transform and
Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de
dados, como, por exemplo, bancos de dados relacionais e
Data Lakes.
Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.
import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)
Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.
Sobre as afirmativas acima, pode-se dizer que:
Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.
import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)
Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.
Sobre as afirmativas acima, pode-se dizer que:
Provas
Questão presente nas seguintes provas
O ETL (extract, transformation, and load) é
considerado uma das ferramentas mais importantes para
implementação de um Data Warehouse. Diante deste
contexto, é INCORRETO afirmar que:
Provas
Questão presente nas seguintes provas
Sobre as arquiteturas de Data Warehouse e a
Modelagem Dimensional é INCORRETO afirmar que:
Provas
Questão presente nas seguintes provas
Em relação às tecnologias utilizadas em Big Data,
avalie se são verdadeiras (V) ou falsas (F) as afirmativas
a seguir:
I – O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuídos otimizado para dados não estruturados.
II – Os Bancos de Dados NoSQL podem tratar grandes volumes de dados estruturados, semiestruturados e não estruturados.
III – O paradigma de programação MapReduce divide o trabalho em tarefas de mapeamento e redução para manipulação de dados distribuídos.
As afirmativas I, II e III são, respectivamente:
I – O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuídos otimizado para dados não estruturados.
II – Os Bancos de Dados NoSQL podem tratar grandes volumes de dados estruturados, semiestruturados e não estruturados.
III – O paradigma de programação MapReduce divide o trabalho em tarefas de mapeamento e redução para manipulação de dados distribuídos.
As afirmativas I, II e III são, respectivamente:
Provas
Questão presente nas seguintes provas
Uma das abordagens para a tarefa de classificação é
conhecida pelo termo Support Vector Machine (SVM). A
extensão da abordagem SVM para uma resposta
quantitativa em vez de qualitativa chama-se:
Provas
Questão presente nas seguintes provas
Em relação ao processamento de linguagem natural,
NÃO é correto afirmar que:
Provas
Questão presente nas seguintes provas
Analise as afirmativas a seguir, em relação à mineração
de padrões frequentes:
I. Seu objetivo é extrair conjuntos de itens frequentes de um banco de dados.
II. Um exemplo de padrão frequente são as regras de associação.
III. Dado um conjunto de itens X = {x1, x2,…,xm} e um conjunto de transações T = {t1, t2, …, tn}, um subconjunto de X, S, é chamado de conjunto de itens frequentes se S ocorre em uma porcentagem de todas as transações em T que excede um limite, denominado suporte.
IV. O suporte de um conjunto de itens Y, suporte(Y), é definido como o número de transações em T que contêm o conjunto de itens Y.
Das afirmativas acima, é correto afirmar que:
I. Seu objetivo é extrair conjuntos de itens frequentes de um banco de dados.
II. Um exemplo de padrão frequente são as regras de associação.
III. Dado um conjunto de itens X = {x1, x2,…,xm} e um conjunto de transações T = {t1, t2, …, tn}, um subconjunto de X, S, é chamado de conjunto de itens frequentes se S ocorre em uma porcentagem de todas as transações em T que excede um limite, denominado suporte.
IV. O suporte de um conjunto de itens Y, suporte(Y), é definido como o número de transações em T que contêm o conjunto de itens Y.
Das afirmativas acima, é correto afirmar que:
Provas
Questão presente nas seguintes provas
Cadernos
Caderno Container