“Attention Is All You Need”: el artículo que cambió el mundo l ALTIA

Descubre más sobre los grandes modelos de lenguaje

02/07/2026

En junio de 2017 apareció un artículo de investigación, en el área de las redes neuronales profundas, con un título muy sugerente: “Attention Is All You Need” (A. Vaswani et al., de Google). En apenas unas páginas, los investigadores proponían abandonar las arquitecturas recurrentes que dominaban el procesamiento del lenguaje natural y sustituirlas por una idea mucho más simple: la atención. Este artículo, que está cambiando nuestras vidas, llega ya a cerca de 200.000 citas (superar las 10.000 ya suele convertir a un artículo en algo fundacional para la humanidad).

En él, realmente, no se describía ni introducía ninguna técnica de aprendizaje profundo (Deep Learning) que fuese desconocida antes. Lo maravilloso cómo los autores combinaron excepcionalmente distintos ingredientes, ya conocidos, para diseñar un plato nuevo y único. La combinación de estos ingredientes es lo que en la industria se denomina una arquitectura. Mismos ingredientes, combinados de formas distintas, llevan a distintas arquitecturas. Esta arquitectura recibió el nombre de Transformer (como la saga cinematográfica de robots de bloques).

Los Transformers son la base de todos los grandes modelos de hoy en día: ChatGPT, Claude, Gemini, Llama, Mistral, etc. (incluidos los multimodales). El plato, casi 9 años después, sigue siendo básicamente el mismo, aunque algunos chefs han introducido pequeñas mejoras a la receta, que no cambian mucho la arquitectura, pero se mejoran su implementación con alto impacto en la velocidad y el coste: Flash Attention, Kernel Fusion, Mixture of Experts…

La arquitectura de los Transformers, por otro lado, es como un lego. Este consta de bloques iguales que pueden apilarse uno detrás de otro. Por ejemplo, el traductor construido y descrito en el artículo original del que hablábamos antes tenía 6 bloques, mientras que los grandes modelos como GPT, Deep Seek, Gemini tienen cerca de 100. Más bloques significa que necesitamos más datos para entrenar el modelo y, por tanto, más capacidad de computación. En la jerga de la industria, se habla más de parámetros que de bloques, pero hay una correlación positiva entre ambos términos, ya que crecen conjuntamente.

La estructura modular de bloques, junto con la estructura interna de la capa de atención (con múltiples cabeceros), permite que se pueda entrenar el modelo de forma paralela en decenas de miles de GPUs a la vez. Si la arquitectura no fuese altamente paralelizable, se tardarían decenios en entrenar modelos tan grandes.

Entrenar los grandes modelos modernos puede costar decenas de millones de euros y consumir varios gigawatios-hora de energía. Por tanto, solo los gigantes tecnológicos o esfuerzos a nivel estatal o comunitario pueden realmente abordar proyectos de entrenamiento y puesta en producción de estos modelos gigantes.

Algo inesperado con estos grandes modelos de lenguaje es que conforme se incrementan el número de bloques, aparecen las llamadas capacidades emergentes, capacidades que los modelos con muchos bloques exhiben de forma natural, aunque no hayan sido entrenados específicamente para ellas. Por ejemplo, comportamientos que recuerdan al razonamiento: trazar un plan para ejecutar una tarea y auto-evaluar de forma automática la ejecución de cada paso. Antes estábamos acostumbrados a que los modelos solo supieran ejecutar las tareas para las que habían sido explícitamente entrenados. Sin embargo, resultó que al aumentar el número de bloques/parámetros (y, por tanto, de datos con los que son entrenados) los modelos empiezan a exhibir capacidades para las que realmente no han sido entrenados.

Esto, en parte, resultó ser una buena e inesperada noticia, aunque infundió cierto temor en la industria por no entenderse bien cómo surgen estas capacidades emergentes. Gratuitamente, los modelos gigantes nos ofrecían mucho más de lo para que fueron entrenados. Por otro lado, resultó una mala noticia: los fabricantes entrenaban cada vez modelos más grandes buscando estas capacidades emergentes, que necesitaban mayor músculo de cómputo para el entrenamiento y que, por tanto, consumían cada vez más ingentes cantidades de energía con una alta huella de carbono remanente.

Lo paradójico resulta que no necesitamos, en muchas ocasiones, modelos que sepan de todo. Por ejemplo, para su uso en medicina deberían saber medicina, pero no como hacer una receta. Igualmente, para su uso en un despacho de abogados necesitarían saber los modelos de leyes, pero no la vida de Felipe II (por poner un par de ejemplos). Parece que el futuro estaría idealmente destinado a hacer modelos más pequeños, que no necesiten tener un conocimiento universal en todos los campos del saber. Parece lógico pensar que serán modelos con menos bloques/parámetros, ergo más baratos de entrenar y ejecutar, más rápidos y con menos huella de carbono. La duda que queda en el aire por despejar es si perderían estas habilidades emergentes (como el razonamiento) al que tanto partido estamos sacando en las técnicas de IA agéntica de vanguardia (IA con capacidad de planificar y ejecutar autónomamente y sin supervisión humana tareas en función del estado del entorno que observan).

Attention Is All You Need: el artículo que cambió el mundo

Artículos Relacionados

Artículos Relacionados

Tags

Share

Subscribe to our newsletter