Magna Concursos
3877726 Ano: 2025
Disciplina: TI - Ciência de Dados e BI
Banca: UFSM
Orgão: UFSM
Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?
 

Provas

Questão presente nas seguintes provas

Analista de TI - Inteligência Artificial

50 Questões