Transformers

O mecanismo de Self-Attention (autoatenção) é uma inovação crucial da arquitetura Transformer que permite ao modelo ponderar a importância de diferentes partes da sequência de entrada ao processá-la. Diferente de modelos sequenciais anteriores, como as Redes Neurais Recorrentes (RNNs), que processam a entrada um elemento por vez, a autoatenção permite que o modelo estabeleça conexões diretas entre todos os tokens da sequência, independentemente de sua distância posicional. Funcionamento Detalhado: Para cada token na sequência de entrada, a camada de autoatenção calcula três vetores: ...