Referente à arquitetura original do Transformer
(conforme o artigo “Attention is All You Need”, de
Vaswani et. al. 2017), qual é a principal vantagem
do uso do mecanismo Multi-Head Attention em
comparação com uma única camada de atenção na
arquitetura Transformer?