Prova Completa: Técnico de Planejamento e Pesquisa - Ciência de Dados (IPEA - CESGRANRIO

3076531 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

SGBDsPostgreSQL

Sistemas Gerenciadores de Bancos de Dados, SGBD, via de regra, permitem acesso às suas funcionalidades por meio de interfaces interativas e, também, por meio de programas de apoio ou comandos específicos. O SGBD PostgreSQL possui um conjunto de programas de apoio. O programa a ser utilizado para realizar o backup de um banco de dados ou de um esquema, no PostgreSQL, é o pg_dump.

Nesse contexto, considere o seguinte comando:

pg_dump -a -Fp Alfa > Beta

Esse comando gera um backup

Provas

Questão presente nas seguintes provas

3076530 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataHadoopMapReduce

Nas últimas décadas, a automatização e a inserção de máquinas agrícolas transformaram profundamente o panorama do trabalho nas áreas rurais [...] e, em menos de 50 anos, a produtividade do agronegócio brasileiro aumentou 400%. [...]

Esses resultados vieram com a adoção da tecnologia nos processos cotidianos, e também com o investimento em pesquisas [...]. Agora, o agronegócio pode estar diante de um novo salto de produtividade; big data e machine learning são ferramentas que estão ganhando espaço e que podem, novamente, transformar o cenário do campo.

Disponível em: https://summitagro.estadao.com.br/tendencias-e- -tecnologia/como-big-data-e-machine-learning-sao-aplicados-no- -agronegocio/. Acesso em: 5 jan. 2024. Adaptado.

A utilização da plataforma paralela de processamento MapReduce aplica-se adequadamente como um framework de processamento de Big Data, visando à escalabilidade para as aplicações.

Nesse contexto, uma característica inerente à MapReduce é a

A

sua abordagem, que reflete uma solução simplificada de processamento de dados paralelos em um cluster.

B

sua função map(), que gera, para cada registro de entrada, um ou mais pares (chave,valor).

C

sua função reduce(), que gera um resultado combinado em valores que compartilham chaves distintas.

D

sua demanda pela existência de um esquema de dados.

E

natureza estática de suas funções, que devem respeitar a especificação original, caracterizando uma restrição inerente a essa abordagem.

Provas

Questão presente nas seguintes provas

3076529 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Banco de Dados DistribuídoFragmentação de Dados (Horizontal e Vertical)
Banco de Dados DistribuídoReplicação de Dados

Sistemas de bancos de dados apresentam benefícios e desafios potencializados quando é possível adotar uma solução de gerência distribuída, coordenada por um sistema de banco de dados distribuído.

Nesse contexto, uma importante questão de projeto refere- se à

A

autonomia, dimensão a ser considerada na arquitetura de um banco de dados distribuído, pois indica como a distribuição dos dados será processada, com a designação de fragmentos por nó.

B

confiabilidade do sistema, que pode, em função da natureza dos dados e da natureza das aplicações clientes, ser relaxada, em prol do desempenho de execução das consultas.

C

fragmentação vertical de dados, uma técnica que particiona um conjunto de dados em tuplas, ou registros, entre os nós do sistema distribuído.

D

replicação de dados seja ela total ou parcial, pois demanda a implementação de protocolos que garantam a consistência das réplicas.

E

execução de consultas, que se concentram na minimização dos custos de processador e de entrada e saída, sendo os custos de comunicação parcela de menor impacto no total.

Provas

Questão presente nas seguintes provas

3076528 Ano: 2024
Disciplina: TI - Organização e Arquitetura dos Computadores
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

ProcessadoresArquiteturaArquitetura MIMD

O Banco Nossa Caixa é o primeiro banco do hemisfério sul a implantar o GDPS (Processamento Paralelo em Locais Geograficamente Distantes, na sigla em inglês), sistema que processa, simultaneamente, todos os dados da instituição em dois locais fisicamente separados. A tecnologia garante o armazenamento e a continuidade do funcionamento de todos os canais de atendimento e de negócios do banco, ainda que a operação de um dos equipamentos responsáveis por essas funções seja interrompida por um blecaute ou incêndio, por exemplo. O banco investiu R$ 80 milhões no projeto, que levou quatro anos desde a concepção até a implantação.

Do Banco Nossa Caixa Disponível em: https://www.saopaulo.sp.gov.br/ultimas-noticias/ nossa-caixa-usa-sistema-pioneiro-de-processamento-de-dados/. Acesso em: 5 jan. 2024.

No modelo de arquitetura Massively Parallel Processor, MPP, extensibilidade e escalabilidade são características comuns e vantajosas no armazenamento e no processamento de dados paralelos. Nesse contexto, qual modelo de processamento se enquadra à arquitetura MPP?

Provas

Questão presente nas seguintes provas

3076527 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataIngestão de Dados

Apesar de existirem diversas aplicações reais em que há necessidade de ingestão periódica de dados, em algumas a ingestão em lote pode não ser vantajosa, como, por exemplo, em

Provas

Questão presente nas seguintes provas

3076526 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big Data

Para melhorar o processamento de grandes volumes de dados através de computação paralela ou distribuída, pode-se utilizar sharding, técnica que divide os dados em partes menores, chamadas shards. Essas partes são normalmente armazenadas em diferentes nós, ou sítios, de processamento em um sistema distribuído.

O sharding é necessário para garantir a

Provas

Questão presente nas seguintes provas

3076525 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataIngestão de Dados

Existem várias abordagens para a ingestão de dados, sendo cada uma delas adequada para determinado tipo de necessidade e de cenário.

No caso da ingestão de dados em tempo real, streaming, os dados são

A

coletados e processados em intervalos regulares, por exemplo, diariamente ou semanalmente.

B

capturados e processados continuamente à medida que são gerados.

C

processados em pequenos lotes, com o processamento ocorrendo em intervalos curtos, mas não instantâneos.

D

processados apenas após um evento específico ser acionado, como, por exemplo, uma transação em banco de dados ou um clique de usuário.

E

armazenados em um data lake ou data warehouse, antes de qualquer forma de processamento ou de análise.

Provas

Questão presente nas seguintes provas

3076524 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Big DataApache Spark

O Ecossistema Spark tem componentes que oferecem funcionalidades específicas que o tornam uma ferramenta versátil e eficiente para o processamento de grandes volumes de dados, a análise em tempo real, o aprendizado de máquina e muito mais. Essa integração e flexibilidade são algumas das razões pelas quais o Spark se tornou uma ferramenta amplamente utilizada em aplicações de Big Data. Os componentes da Plataforma Spark pertencem a dois grupos principais: os componentes básicos e os componentes especializados, que provêm funcionalidades mais avançadas. Dentre os componentes básicos, podemos destacar o Spark Core, também conhecido como “coração” do Ecossistema, e que é responsável pelas tarefas consideradas essenciais.

O componente Spark Core

A

é um módulo que atua como sistema de gerenciamento de banco de dados relacional para processamento de dados estruturados e distribuídos em um contexto Big Data.

B

é uma biblioteca para processamento de gráficos e análises de dados distribuídos, sem esquema e não estruturados, características principais em um ambiente Big Data.

C

é uma ferramenta responsável pelo tratamento e análise de streams de dados em tempo real, específica de grandes volumes, com velocidade e variedade, características típicas em sistemas de Big Data.

D

corresponde ao módulo que contempla funcionalidades de computação distribuída, incluindo agendamento de tarefas e gerenciamento de memória, para aplicações Big Data.

E

diz respeito ao principal add-on da plataforma que, por ser um framework orientado a objetos, tem esse hot-spot para melhorar a eficiência do armazenamento de dados distribuídos de aplicações Big Data em clusters.

Provas

Questão presente nas seguintes provas

3076523 Ano: 2024
Disciplina: TI - Redes de Computadores
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Cloud ComputingCloud Computing: Modelos de Serviço

No contexto da ciência de dados em cloud computing, e considerando-se as soluções de Plataforma como Serviço (PaaS), as de Infraestrutura como Serviço (IaaS) e as de Software como Serviço (SaaS), constata-se que

A

IaaS é mais adequado que PaaS para o desenvolvimento rápido de aplicações de ciência de dados, pois oferece ferramentas e bibliotecas específicas para ciência de dados pré-instaladas.

B

PaaS oferece maior controle sobre o hardware e os sistemas operacionais, tornando-o mais adequado para tarefas de ciência de dados que requerem customizações profundas no nível do sistema.

C

PaaS fornece um ambiente de desenvolvimento e execução pronto para uso, eliminando a necessidade de gerenciar a infraestrutura subjacente, o que é comum em IaaS.

D

SaaS é geralmente mais flexível que PaaS no que diz respeito à instalação e à configuração de ambientes de ciência de dados, pois permite um maior grau de personalização e controle.

E

SaaS oferece mais opções para escalabilidade e distribuição de dados do que PaaS, tornando-o a escolha preferencial para aplicações de ciência de dados que precisam de alta escalabilidade.

Provas

Questão presente nas seguintes provas

3076522 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

BI: Business IntelligenceETL/ELT
Big DataIngestão de Dados

O processo de ingestão de dados é normalmente dividido em três etapas principais:

1 - Extração, ou coleta, de dados das fontes disponíveis;

2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e

3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake. Essas três etapas podem variar dependendo de os dados serem estruturados ou não.

Nesse contexto, verifica-se que, na etapa de

A

carga, os dados estruturados são sempre transferidos diretamente ao repositório de destino, sem necessidade de transformação.

B

carga, os dados não estruturados são sempre convertidos em formatos estruturados antes de serem armazenados.

C

extração, os dados estruturados são coletados exclusivamente através de APIs especializadas.

D

transformação, os dados estruturados podem requerer conversão para um formato não estruturado para facilitar a análise avançada.

E

transformação, os dados não estruturados podem necessitar de processamento de linguagem natural ou de técnicas de reconhecimento de imagens.

Comentários