Foram encontradas 5.009 questões.
O Apache Hadoop é uma plataforma amplamente utilizada no processamento de grandes volumes de dados. Ele se destaca por sua arquitetura distribuída e capacidade de lidar com grandes conjuntos de dados de forma eficiente.
Com base nas capacidades e funcionalidades do Hadoop, assinale a opção que = descreve corretamente seu funcionamento e aplicação prática.
Provas
Considere o seguinte código em R:

É correto afirmar que
Provas
Uma loja online que está crescendo e coletando muitas informações sobre seus clientes: o que eles clicam, o que compram, as avaliações que deixam nos produtos e até as mensagens que enviam. Para dar dicas de produtos cada vez melhores e deixar a experiência de cada cliente mais personalizada, a loja decidiu criar um "grande depósito de dados" (Data Lake) para guardar tudo isso. E a equipe de especialistas em dados planeja usar Inteligência Artificial e Machine Learning para desvendar os segredos contidos nesse depósito.
Nesse caso, a grande vantagem de usar IA e ML junto com um Data Lake é
Provas
É considerada uma prática fundamental para assegurar o sucesso de um projeto de Business Intelligence (BI) em uma organização
Provas
Sobre as técnicas de integração e ingestão de dados ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform), assinale a opção incorreta.
Provas
Seja o conjunto de dados X apresentado a seguir, em que os atributos “P” e “Q” são preditores, e o atributo “Classe” é o atributo-alvo:

Queremos classificar uma nova amostra x=(5.0, 5.0) utilizando o algoritmo clássico dos k vizinhos mais próximos (k-NN), utilizando a distância euclidiana para a determinação de vizinhanças. Com base nesse algoritmo, e considerando os valores aproximados de √2 ≈ 1,414 e √3 ≈ 2,236, o k-NN retorna como categoria de x
Provas
A validação cruzada é uma importante técnica em aprendizado de máquina, usada para obter uma estimativa mais robusta do erro de generalização. Dessa forma, ela contribui para a construção de modelos mais confiáveis, permitindo uma avaliação mais precisa de sua capacidade preditiva em diferentes cenários.
Uma das características da validação cruzada com k conjuntos é que esse método
Provas
Em arquiteturas modernas de Data Warehousing, o processo de ETL é fundamental para preparar os dados de forma eficiente para a tomada de decisões estratégicas.
Ele é como uma ponte entre os sistemas e o Data Warehouse. Nesse contexto, o principal objetivo do processo de ETL em uma solução de Data Warehousing é
Provas
Um conjunto de dados foi particionado em dois subconjuntos, sendo um de treinamento e outro de testagem, ambos utilizados exclusivamente para serem usados em seus objetivos originais (dados de treino para treinamento, e de teste para testagem).
Em relação ao ajuste e validação de modelos em aprendizado de máquina, um modelo sofre overfitting quando
Provas
A Inteligência Artificial (IA) é uma área da ciência da computação que visa desenvolver sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana.
O conceito que está mais diretamente relacionado ao desenvolvimento de sistemas que aprendem com os dados e melhoram seu desempenho ao longo do tempo é o de
Provas
Caderno Container