El Problema Histórico
Antes de 2017, los modelos dominantes para secuencias (como la traducción) eran las Redes Neuronales Recurrentes (RNNs). Su mayor problema era el procesamiento secuencial (palabra por palabra), creando un cuello de botella.
- Difícil de paralelizar (Entrenamiento lento).
- Pérdida de memoria en secuencias muy largas.
Las RNNs forman cuellos de botella computacionales al procesar "t -> t+1".
La Solución: El Transformer
Los autores propusieron una arquitectura disruptiva: "Deshagámonos de la recurrencia por completo". El Transformer procesa todas las palabras al mismo tiempo, conectándolas mediante mecanismos matemáticos de atención.
Todas las entradas se analizan a la vez.
Los 3 Pilares del Modelo
Self-Attention
Permite a cada palabra mirar a todas las demás palabras en la oración. El modelo calcula matemáticamente qué palabras están más relacionadas entre sí para entender el contexto.
Multi-Head Attention
Calcula la "atención" múltiples veces en paralelo (diferentes "cabezas"). Esto permite a la IA enfocarse en diferentes tipos de relaciones (gramaticales, semánticas) simultáneamente.
Positional Encoding
Al procesar todo a la vez, el modelo pierde el orden de las palabras. Para solucionarlo, inyecta una señal matemática (basada en senos y cosenos) que indica la posición exacta de cada token.
Arquitectura Encoder-Decoder
Resultados Revolucionarios
Nuevo récord en WMT 2014 Inglés-Alemán, superando ensambles complejos por más de 2 puntos.
En solo 8 GPUs P100. Una pequeña fracción del costo de entrenamiento de los mejores modelos de la época.
El Legado del Transformer
Este paper fundó las bases para la explosión moderna de la IA Generativa. Todos los grandes modelos actuales, como ChatGPT, Claude, Gemini y Llama, están basados en esta misma arquitectura revolucionaria.