Uma plataforma de e-commerce deseja analisar automaticamente as avaliações deixadas pelos clientes nos produtos para determinar se são positivas ou negativas. Para isso, a equipe de ciência de dados está treinando um modelo de aprendizado de máquina para análise de sentimentos. Dado que as avaliações são textos não estruturados, a equipe experimentou diferentes métodos de representação vetorial para transformar os textos em formatos que o modelo pode processar. Após testar diferentes abordagens, eles obtiveram os seguintes resultados em um modelo de classificação de sentimentos:
| Representação Vetorial | Acurácia nos Dados de Treinamento |
Acurácia nos Dados de Teste |
|---|---|---|
| Bag of Words (BoW) | 95% | 70% |
| TF-IDF | 94% | 73% |
| Word2Vec (CBOW) | 90% | 80% |
| BERT (Transformers) | 89% | 88% |
Com base nos resultados apresentados, assinale a alternativa que descreve a melhor escolha de representação vetorial para este problema e sua justificativa.