Fondo IA
NIPS 2017 • Vaswani et al.

Attention Is All You Need

El paper que descartó las recurrencias, introdujo el Transformer, y cambió el rumbo de la Inteligencia Artificial para siempre.

Descubre cómo

El Problema Histórico

Antes de 2017, los modelos dominantes para secuencias (como la traducción) eran las Redes Neuronales Recurrentes (RNNs). Su mayor problema era el procesamiento secuencial (palabra por palabra), creando un cuello de botella.

  • Difícil de paralelizar (Entrenamiento lento).
  • Pérdida de memoria en secuencias muy largas.
Código y Cuello de Botella
RNN Secuencial

Las RNNs forman cuellos de botella computacionales al procesar "t -> t+1".

La Solución: El Transformer

Los autores propusieron una arquitectura disruptiva: "Deshagámonos de la recurrencia por completo". El Transformer procesa todas las palabras al mismo tiempo, conectándolas mediante mecanismos matemáticos de atención.

Altamente Paralelizable Velocidad Extrema
Red Global y Paralelismo
PROCESAMIENTO PARALELO

Todas las entradas se analizan a la vez.

El Motor Matemático

Los 3 Pilares del Modelo

Self-Attention

Permite a cada palabra mirar a todas las demás palabras en la oración. El modelo calcula matemáticamente qué palabras están más relacionadas entre sí para entender el contexto.

Multi-Head Attention

Calcula la "atención" múltiples veces en paralelo (diferentes "cabezas"). Esto permite a la IA enfocarse en diferentes tipos de relaciones (gramaticales, semánticas) simultáneamente.

Positional Encoding

Al procesar todo a la vez, el modelo pierde el orden de las palabras. Para solucionarlo, inyecta una señal matemática (basada en senos y cosenos) que indica la posición exacta de cada token.

Arquitectura Encoder-Decoder

1. ENCODER
Entradas (Inputs)
Positional Encoding
Multi-Head Self-Attention
Add & Norm
Feed Forward
2. DECODER
Salidas desplazadas
Masked Multi-Head Attention
Multi-Head Attention
Feed Forward
Linear & Softmax
Probabilidades de Salida

Resultados Revolucionarios

28.4
BLEU Score

Nuevo récord en WMT 2014 Inglés-Alemán, superando ensambles complejos por más de 2 puntos.

3.5 Días
Entrenamiento

En solo 8 GPUs P100. Una pequeña fracción del costo de entrenamiento de los mejores modelos de la época.

IA Generativa

El Legado del Transformer

Este paper fundó las bases para la explosión moderna de la IA Generativa. Todos los grandes modelos actuales, como ChatGPT, Claude, Gemini y Llama, están basados en esta misma arquitectura revolucionaria.

Diseño y Desarrollo de la Infografía

Marco Antonio Bonifacio Ruiz

Logo Universidad Continental
Universidad
Continental
Ingeniería de Sistemas
e Informática