3076535 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoDiscretização

Um cientista de dados precisa discretizar uma variável, representando distâncias entre cidades em quilômetros em 10 intervalos com, aproximadamente, o mesmo número de observações.

Nesse contexto, a técnica mais adequada é a discretização

Provas

Questão presente nas seguintes provas

3076530 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataHadoopMapReduce

Nas últimas décadas, a automatização e a inserção de máquinas agrícolas transformaram profundamente o panorama do trabalho nas áreas rurais [...] e, em menos de 50 anos, a produtividade do agronegócio brasileiro aumentou 400%. [...]

Esses resultados vieram com a adoção da tecnologia nos processos cotidianos, e também com o investimento em pesquisas [...]. Agora, o agronegócio pode estar diante de um novo salto de produtividade; big data e machine learning são ferramentas que estão ganhando espaço e que podem, novamente, transformar o cenário do campo.

Disponível em: https://summitagro.estadao.com.br/tendencias-e- -tecnologia/como-big-data-e-machine-learning-sao-aplicados-no- -agronegocio/. Acesso em: 5 jan. 2024. Adaptado.

A utilização da plataforma paralela de processamento MapReduce aplica-se adequadamente como um framework de processamento de Big Data, visando à escalabilidade para as aplicações.

Nesse contexto, uma característica inerente à MapReduce é a

A

sua abordagem, que reflete uma solução simplificada de processamento de dados paralelos em um cluster.

B

sua função map(), que gera, para cada registro de entrada, um ou mais pares (chave,valor).

C

sua função reduce(), que gera um resultado combinado em valores que compartilham chaves distintas.

D

sua demanda pela existência de um esquema de dados.

E

natureza estática de suas funções, que devem respeitar a especificação original, caracterizando uma restrição inerente a essa abordagem.

Provas

Questão presente nas seguintes provas

3076527 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataIngestão de Dados

Apesar de existirem diversas aplicações reais em que há necessidade de ingestão periódica de dados, em algumas a ingestão em lote pode não ser vantajosa, como, por exemplo, em

Provas

Questão presente nas seguintes provas

3076526 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big Data

Para melhorar o processamento de grandes volumes de dados através de computação paralela ou distribuída, pode-se utilizar sharding, técnica que divide os dados em partes menores, chamadas shards. Essas partes são normalmente armazenadas em diferentes nós, ou sítios, de processamento em um sistema distribuído.

O sharding é necessário para garantir a

Provas

Questão presente nas seguintes provas

3076525 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataIngestão de Dados

Existem várias abordagens para a ingestão de dados, sendo cada uma delas adequada para determinado tipo de necessidade e de cenário.

No caso da ingestão de dados em tempo real, streaming, os dados são

A

coletados e processados em intervalos regulares, por exemplo, diariamente ou semanalmente.

B

capturados e processados continuamente à medida que são gerados.

C

processados em pequenos lotes, com o processamento ocorrendo em intervalos curtos, mas não instantâneos.

D

processados apenas após um evento específico ser acionado, como, por exemplo, uma transação em banco de dados ou um clique de usuário.

E

armazenados em um data lake ou data warehouse, antes de qualquer forma de processamento ou de análise.

Provas

Questão presente nas seguintes provas

3076524 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataApache Spark

O Ecossistema Spark tem componentes que oferecem funcionalidades específicas que o tornam uma ferramenta versátil e eficiente para o processamento de grandes volumes de dados, a análise em tempo real, o aprendizado de máquina e muito mais. Essa integração e flexibilidade são algumas das razões pelas quais o Spark se tornou uma ferramenta amplamente utilizada em aplicações de Big Data. Os componentes da Plataforma Spark pertencem a dois grupos principais: os componentes básicos e os componentes especializados, que provêm funcionalidades mais avançadas. Dentre os componentes básicos, podemos destacar o Spark Core, também conhecido como “coração” do Ecossistema, e que é responsável pelas tarefas consideradas essenciais.

O componente Spark Core

A

é um módulo que atua como sistema de gerenciamento de banco de dados relacional para processamento de dados estruturados e distribuídos em um contexto Big Data.

B

é uma biblioteca para processamento de gráficos e análises de dados distribuídos, sem esquema e não estruturados, características principais em um ambiente Big Data.

C

é uma ferramenta responsável pelo tratamento e análise de streams de dados em tempo real, específica de grandes volumes, com velocidade e variedade, características típicas em sistemas de Big Data.

D

corresponde ao módulo que contempla funcionalidades de computação distribuída, incluindo agendamento de tarefas e gerenciamento de memória, para aplicações Big Data.

E

diz respeito ao principal add-on da plataforma que, por ser um framework orientado a objetos, tem esse hot-spot para melhorar a eficiência do armazenamento de dados distribuídos de aplicações Big Data em clusters.

Provas

Questão presente nas seguintes provas

3076522 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

BI: Business IntelligenceETL/ELT
Big DataIngestão de Dados

O processo de ingestão de dados é normalmente dividido em três etapas principais:

1 - Extração, ou coleta, de dados das fontes disponíveis;

2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e

3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake. Essas três etapas podem variar dependendo de os dados serem estruturados ou não.

Nesse contexto, verifica-se que, na etapa de

A

carga, os dados estruturados são sempre transferidos diretamente ao repositório de destino, sem necessidade de transformação.

B

carga, os dados não estruturados são sempre convertidos em formatos estruturados antes de serem armazenados.

C

extração, os dados estruturados são coletados exclusivamente através de APIs especializadas.

D

transformação, os dados estruturados podem requerer conversão para um formato não estruturado para facilitar a análise avançada.

E

transformação, os dados não estruturados podem necessitar de processamento de linguagem natural ou de técnicas de reconhecimento de imagens.

Provas

Questão presente nas seguintes provas

3076345 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGM Belo Horizonte-MG

Provas:

Auditor de Controle Interno - TI
Provas ×

Inteligência ArtificialConceitos e Fundamentos de IA

Relacione os termos de Inteligência Artificial (IA) às suas respectivas definições.

1. IA fraca

2. IA forte

3. IA generativa

4. Teste de Turing

( ) É capaz de resolver uma única tarefa, pode automatizar tarefas demoradas e analisar dados de maneiras que os humanos às vezes não podem.

( ) É uma categoria de algoritmos de IA que gera novos resultados com base nos dados em que foram treinados.

( ) É capaz de resolver uma gama extensa e arbitrária de tarefas, incluindo aquelas que são novas, e executá-las com eficácia comparável à de um ser humano.

( ) É uma medida de inteligência de uma máquina, onde se a máquina pode se passar por um humano em uma conversa de texto, ela passa no teste.

Assinale a opção que indica a relação correta, segundo a ordem apresentada.

Provas

Questão presente nas seguintes provas

3076344 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGM Belo Horizonte-MG

Provas:

Auditor de Controle Interno - TI
Provas ×

Inteligência ArtificialMachine LearningFundamentos de Machine Learning

Sobre o Aprendizado de Máquina, analise as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.

( ) Aprendizado supervisionado é um tipo de aprendizado de máquina em que o modelo é treinado em um dataset rotulado.

( ) Aprendizado não supervisionado é um tipo de aprendizado de máquina em que o modelo é treinado em um dataset não rotulado e a estrutura subjacente dos dados é descoberta pelo algoritmo.

( ) Aprendizado por reforço é um tipo de aprendizado de máquina em que o modelo é treinado para prever o resultado de uma variável dependente com base em variáveis independentes.

As afirmativas são, respectivamente,

Provas

Questão presente nas seguintes provas

3076343 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: CGM Belo Horizonte-MG

Provas:

Auditor de Controle Interno - TI
Provas ×

Considerando os conceitos principais de ciência de dados, analise as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.

( ) Em um sistema BigData, o pipeline de dados implementa as etapas necessárias para mover dados de sistemas de origem, transformar esses dados com base nos requisitos e armazenar os dados em um sistema de destino, incluindo todos os processos necessários para transformar dados brutos em dados preparados que os usuários podem consumir.

( ) Dentre os métodos de manipulação de valores ausentes, em processamento massivo e paralelo, consta a normalização numérica, que se refere ao processo de ajustar os dados para que estejam em uma escala comparável, geralmente entre 0 e 1.

( ) A demanda crescente por medidas de criptografia ponta a ponta (da produção ao backup) tornam menos eficazes e relevantes tecnologias legadas, como a deduplicação de dados (data deduplication), que busca ajudar a otimizar o armazenamento e melhorar o desempenho de um sistema ao estabelecer processo de identificar e eliminar dados duplicados em um sistema.

As afirmativas são, respectivamente,