Infografía: Attention Is All You Need | Universidad Continental

El Problema Histórico

Antes de 2017, los modelos dominantes para secuencias (como la traducción) eran las Redes Neuronales Recurrentes (RNNs). Su mayor problema era el procesamiento secuencial (palabra por palabra), creando un cuello de botella.

Difícil de paralelizar (Entrenamiento lento).
Pérdida de memoria en secuencias muy largas.

Las RNNs forman cuellos de botella computacionales al procesar "t -> t+1".

La Solución: El Transformer

Los autores propusieron una arquitectura disruptiva: "Deshagámonos de la recurrencia por completo". El Transformer procesa todas las palabras al mismo tiempo, conectándolas mediante mecanismos matemáticos de atención.

Altamente Paralelizable Velocidad Extrema

PROCESAMIENTO PARALELO

Todas las entradas se analizan a la vez.

El Motor Matemático

Los 3 Pilares del Modelo

Self-Attention

Permite a cada palabra mirar a todas las demás palabras en la oración. El modelo calcula matemáticamente qué palabras están más relacionadas entre sí para entender el contexto.

Multi-Head Attention

Calcula la "atención" múltiples veces en paralelo (diferentes "cabezas"). Esto permite a la IA enfocarse en diferentes tipos de relaciones (gramaticales, semánticas) simultáneamente.

Positional Encoding

Al procesar todo a la vez, el modelo pierde el orden de las palabras. Para solucionarlo, inyecta una señal matemática (basada en senos y cosenos) que indica la posición exacta de cada token.

Arquitectura Encoder-Decoder

1. ENCODER

Entradas (Inputs)

Positional Encoding

Multi-Head Self-Attention

Add & Norm

Feed Forward

2. DECODER

Salidas desplazadas

Masked Multi-Head Attention

Multi-Head Attention Encoder

Feed Forward

Linear & Softmax

Probabilidades de Salida

Resultados Revolucionarios

28.4

BLEU Score

Nuevo récord en WMT 2014 Inglés-Alemán, superando ensambles complejos por más de 2 puntos.

3.5 Días

Entrenamiento

En solo 8 GPUs P100. Una pequeña fracción del costo de entrenamiento de los mejores modelos de la época.

El Legado del Transformer

Este paper fundó las bases para la explosión moderna de la IA Generativa. Todos los grandes modelos actuales, como ChatGPT, Claude, Gemini y Llama, están basados en esta misma arquitectura revolucionaria.

Diseño y Desarrollo de la Infografía

Marco Antonio Bonifacio Ruiz

Universidad

Continental

Ingeniería de Sistemas

e Informática