¿Cómo funciona realmente un LLM? Guía técnica, sin complicaciones

Los transformadores han revolucionado la inteligencia artificial, pero ¿cómo logran realmente que una máquina "comprenda" el lenguaje humano? Desde los mecanismos de atención hasta el proceso de entrenamiento, desvelamos la ingeniería detrás de la tecnología que está transformando el mundo del trabajo.

Cuando escribes "Explícame la relatividad" a ChatGPT y obtienes una respuesta coherente y contextualizada, estás siendo testigo de una de las hazañas de ingeniería más impresionantes de nuestro tiempo. Pero ¿qué sucede realmente en esos milisegundos entre tu pregunta y la respuesta?

Contrario a la percepción popular, los LLMs no "piensan" como los humanos. No tienen consciencia ni comprensión real del mundo. Sin embargo, han logrado algo extraordinario: predecir la siguiente palabra con tal precisión que el resultado parece inteligencia genuina.

En este artículo, desvelaremos los mecanismos internos que hacen posible esta magia tecnológica, desde la arquitectura de transformadores hasta el proceso de entrenamiento que consume más electricidad que países enteros.

Tabla de contenidos

Los transformadores: la arquitectura que cambió todo
El mecanismo de atención: cómo los LLMs "entienden" el contexto
Del entrenamiento a la inferencia: el proceso completo
Comparando arquitecturas: GPT vs BERT vs T5
Los números detrás de la magia: parámetros y escalabilidad
Fine-tuning: especializando el conocimiento general

Los transformadores: la arquitectura que cambió todo

La historia de los LLMs modernos comienza en 2017 con un paper titulado "Attention Is All You Need". Este trabajo introdujo la arquitectura de transformadores que, literalmente, transformó el campo de la inteligencia artificial.

Antes de los transformadores, los modelos de lenguaje dependían de arquitecturas recurrentes (RNN) y LSTM que procesaban el texto secuencialmente, palabra por palabra. Era como leer un libro tapando todas las páginas excepto la que estás leyendo: eficiente en memoria, pero limitado en comprensión global.

Los transformadores revolucionaron esto permitiendo el procesamiento paralelo de todas las palabras simultáneamente. Es como tener acceso a todo el libro a la vez, pudiendo relacionar cualquier palabra con cualquier otra, sin importar la distancia entre ellas.

La arquitectura básica se compone de dos elementos principales:

Encoder-Decoder Stack: El encoder procesa la secuencia de entrada y crea representaciones contextualizadas. El decoder genera la secuencia de salida, palabra por palabra, utilizando tanto la información del encoder como las palabras previamente generadas.

Mecanismos de atención: El componente más revolucionario, que permite al modelo determinar qué partes de la entrada son más relevantes para generar cada palabra de la salida.

Los modelos como GPT utilizan solo la parte del decoder, optimizada para generación autoregresiva (predecir la siguiente palabra). BERT usa solo el encoder, optimizado para comprensión bidireccional. T5 mantiene ambos, funcionando como un traductor universal texto-a-texto.

Esta flexibilidad arquitectónica explica por qué los transformadores han dominado no solo el procesamiento de lenguaje natural, sino también visión computacional, audio y prácticamente cualquier tarea que involucre secuencias de datos.

El mecanismo de atención: cómo los LLMs "entienden" el contexto

El mecanismo de atención es el corazón de los transformadores y la clave para entender cómo los LLMs procesan el lenguaje. Imagina que estás leyendo la frase: "El banco donde trabajo está cerca del banco del río."

Un humano automáticamente entiende que el primer "banco" se refiere a una institución financiera y el segundo a la orilla de un río. Los transformadores logran esta distinción contextual a través de la atención.

El proceso funciona así:

1. Embeddings: Cada palabra se convierte en un vector numérico de alta dimensión (típicamente 512 a 4096 dimensiones). Estas representaciones capturan significado semántico: palabras similares tienen vectores similares.

2. Query, Key, Value: Para cada palabra, el modelo genera tres vectores: Query (qué busca), Key (qué ofrece) y Value (qué información contiene). Es como un sistema de búsqueda interno donde cada palabra pregunta y responde simultáneamente.

3. Scores de atención: Se calculan productos punto entre queries y keys para determinar qué tan relevante es cada palabra para todas las demás. Un score alto significa "presta mucha atención a esta relación".

4. Softmax y weighted sum: Los scores se normalizan y se usan para crear un promedio ponderado de los values. El resultado es una representación contextualizada donde cada palabra "sabe" sobre todas las demás.

En nuestro ejemplo del banco, cuando el modelo procesa el primer "banco", las palabras "trabajo" y "está" reciben scores de atención altos, sugiriendo el contexto financiero. Para el segundo "banco", palabras como "río" dominan la atención.

Multi-Head Attention: Los transformadores no usan un solo mecanismo de atención, sino múltiples "cabezas" (típicamente 8-32) operando en paralelo. Cada cabeza puede especializarse en diferentes tipos de relaciones: sintácticas, semánticas, de largo alcance, etc.

GPT-4 utiliza 128 cabezas de atención distribuidas en 96 capas, creando una red de comprensión contextual de una complejidad asombrosa. Esto explica por qué puede mantener coherencia en textos de decenas de miles de palabras.

Del entrenamiento a la inferencia: el proceso completo

El desarrollo de un LLM moderno es un proceso de tres etapas que consume recursos computacionales equivalentes al PIB de países pequeños. Entender este proceso es crucial para comprender tanto las capacidades como las limitaciones de estos sistemas.

Fase 1: Pre-entrenamiento

Esta es la fase más costosa e intensiva. El modelo aprende a predecir la siguiente palabra utilizando billones de tokens de texto de internet: Wikipedia, libros, código, artículos científicos y páginas web filtradas.

GPT-4 fue entrenado con aproximadamente 13 billones de tokens (para contexto, esto equivale a 10 millones de libros de 400 páginas). El proceso requirió más de 25,000 GPUs NVIDIA A100 funcionando durante meses, con un costo estimado superior a $100 millones.

El objetivo es simple pero poderoso: dado un texto como "El cielo es", predecir que la siguiente palabra probablemente sea "azul". Multiplicado billones de veces, este proceso aparentemente simple enseña al modelo gramática, hechos sobre el mundo, razonamiento básico e incluso algunos aspectos de creatividad.

Fase 2: Instruction Tuning

El pre-entrenamiento produce un modelo que es excelente completando texto, pero no necesariamente siguiendo instrucciones. Esta fase utiliza datasets curados de conversaciones humano-IA de alta calidad.

Técnicas como supervised fine-tuning transforman el "completador de texto" en un "asistente conversacional". El modelo aprende patrones como:

Humano: "Explica la fotosíntesis"
Asistente: "La fotosíntesis es el proceso por el cual..."

Fase 3: Reinforcement Learning from Human Feedback (RLHF)

La fase final utiliza retroalimentación humana para alinear el modelo con valores y preferencias humanas. Evaluadores humanos clasifican diferentes respuestas del modelo, creando un "reward model" que guía el entrenamiento final.

Este proceso es crucial para que el modelo sea útil, seguro y honesto. Sin RLHF, los LLMs tienden a generar contenido factualmente incorrecto o potencialmente dañino.

Inferencia: Cuando usas el modelo

Cuando escribes un prompt, el proceso es relativamente eficiente comparado con el entrenamiento:

Tokenización: Tu texto se convierte en tokens numéricos
Forward pass: Los tokens pasan por todas las capas del transformer
Generación autoregresiva: El modelo genera una palabra, la añade al contexto, y repite
Decodificación: Los tokens se convierten de vuelta a texto legible

Un prompt típico de 100 palabras que genera una respuesta de 500 palabras requiere aproximadamente 600 forward passes a través del modelo completo. En hardware optimizado, esto toma segundos, pero representa millones de operaciones matemáticas.

Comparando arquitecturas: GPT vs BERT vs T5

Aunque todos utilizan transformadores, diferentes modelos implementan arquitecturas especializadas para tareas específicas. Entender estas diferencias es clave para elegir la herramienta correcta para cada aplicación.

GPT (Generative Pre-trained Transformer)

GPT utiliza solo la parte decoder de la arquitectura original, optimizada para generación autoregresiva. Su entrenamiento consiste en predecir la siguiente palabra dada todas las palabras anteriores.

Fortalezas:

Excelente para generación de texto creativo y conversacional
Puede manejar tareas de few-shot learning sin fine-tuning adicional
Arquitectura simple y escalable

Limitaciones:

Solo ve el contexto hacia la izquierda (palabras anteriores)
Menos eficiente para tareas de comprensión donde se necesita contexto bidireccional

GPT-4 Turbo maneja 128,000 tokens de contexto, permitiendo procesar documentos de 300+ páginas en una sola pasada.

BERT (Bidirectional Encoder Representations from Transformers)

BERT utiliza solo la parte encoder, entrenado para predecir palabras enmascaradas usando contexto bidireccional (palabras antes y después).

Fortalezas:

Comprensión superior para tareas de análisis: clasificación, extracción de entidades, Q&A
Eficiente para fine-tuning en tareas específicas
Representaciones de alta calidad para aplicaciones downstream

Limitaciones:

No diseñado para generación de texto
Requiere fine-tuning para la mayoría de aplicaciones prácticas

BERT-Large logra 93.2% de precisión en tareas de comprensión lectora de Stanford, superando el rendimiento humano en algunos benchmarks.

T5 (Text-to-Text Transfer Transformer)

T5 mantiene la arquitectura encoder-decoder completa, tratando todas las tareas como transformaciones de texto-a-texto.

Fortalezas:

Versatilidad extrema: traducción, resumen, Q&A, clasificación
Framework unificado para múltiples tareas
Excelente para transfer learning

Limitaciones:

Mayor complejidad computacional
Requiere más datos de entrenamiento específicos por tarea

Arquitecturas Híbridas y Especializadas

Modelos como PaLM, LaMDA y Claude utilizan variaciones propietarias que combinan lo mejor de cada enfoque:

PaLM: Optimizaciones de escalabilidad para 540B parámetros
LaMDA: Especializado en conversaciones naturales y seguridad
Claude: Enfoque en helpfulness, harmlessness y honesty

La tendencia actual favorece arquitecturas de solo-decoder como GPT debido a su simplicidad y capacidades emergentes a gran escala.

Los números detrás de la magia: parámetros y escalabilidad

Los números detrás de los LLMs modernos son verdaderamente asombrosos y ayudan a explicar tanto sus capacidades como sus limitaciones. Entender estas métricas es crucial para evaluar diferentes modelos y predecir sus aplicaciones.

Escalas de parámetros y su impacto

Un parámetro en un LLM es esencialmente una conexión aprendida entre neuronas artificiales. Más parámetros generalmente significan mayor capacidad de memorización y generalización.

GPT-1 (2018): 117 millones de parámetros
GPT-2 (2019): 1.5 mil millones de parámetros
GPT-3 (2020): 175 mil millones de parámetros
GPT-4 (2023): Estimado en 1.7 billones de parámetros
Claude-3 Opus: Estimado en 600-800 mil millones de parámetros

Esta escalabilidad sigue aproximadamente la "Ley de Escalamiento Neural": el rendimiento mejora de forma predecible con más parámetros, datos de entrenamiento y computación.

Capacidades emergentes

Lo más fascinante es que ciertas habilidades emergen repentinamente en ciertos umbrales de escala:

Reasoning de múltiples pasos: Aparece alrededor de 60B parámetros
Few-shot learning: Se vuelve confiable después de 100B parámetros
Code generation: Emerge significativamente en modelos de 150B+
Theory of mind básica: Observable en modelos de 500B+

Costos computacionales

Entrenar GPT-4 requirió aproximadamente 2.15×10²⁵ FLOPs (operaciones de punto flotante), consumiendo más electricidad que la que usa Uruguay en un año completo.

Memoria y almacenamiento

GPT-4 en precisión completa requiere aproximadamente 3.4 TB de memoria VRAM solo para almacenar los parámetros. Esto explica por qué las implementaciones comerciales utilizan técnicas como:

Quantización: Reducir precisión de 32-bit a 8-bit o menos
Model sharding: Distribuir el modelo entre múltiples GPUs
Techniques de compresión: Pruning y knowledge distillation

Límites físicos y económicos

La continuación de la escalabilidad enfrenta límites reales:

Límite de datos: Internet tiene un número finito de texto de calidad
Límite energético: El entrenamiento de modelos futuros podría requerir la producción energética de países enteros
Límite económico: Los costos de entrenamiento crecen exponencialmente

Esto ha llevado a enfoques alternativos como modelos especializados más pequeños, técnicas de entrenamiento más eficientes, y arquitecturas híbridas que combinan múltiples sistemas especializados.

Fine-tuning: especializando el conocimiento general

Aunque los LLMs pre-entrenados son impresionantemente capaces, el fine-tuning permite especializarlos para tareas, dominios o comportamientos específicos. Este proceso transforma un "generalista" en un "especialista" manteniendo las capacidades fundamentales.

Tipos de fine-tuning

Supervised Fine-tuning (SFT): El método más directo, donde el modelo se entrena en pares input-output específicos para la tarea objetivo.

Ejemplo práctico: Un modelo fine-tuned para análisis financiero entrenado con miles de pares como:

Input: "Analiza este estado financiero de Apple Q3 2024..."
Output: "Los ingresos de Apple aumentaron 15% YoY, impulsados principalmente por..."

Parameter-Efficient Fine-tuning (PEFT): Técnicas como LoRA (Low-Rank Adaptation) que modifican solo una pequeña fracción de parámetros, reduciendo drásticamente los costos computacionales.

LoRA típicamente modifica menos del 1% de los parámetros originales, pero logra 90-95% del rendimiento del fine-tuning completo. Meta reporta que LoRA reduce los requisitos de memoria en 3x y acelera el entrenamiento en 2.5x.

In-Context Learning vs Fine-tuning

Una característica única de los LLMs grandes es su capacidad de "aprender" nuevas tareas simplemente a través de ejemplos en el prompt, sin modificar parámetros.

Comparación de enfoques:

In-context learning: Rápido, flexible, pero limitado por el tamaño del contexto
Fine-tuning: Más costoso inicialmente, pero superior rendimiento y eficiencia en inferencia

OpenAI reporta que GPT-4 con fine-tuning específico supera a GPT-4 base en un 85% en tareas especializadas de código médico, mientras que el in-context learning solo mejora el rendimiento en un 23%.

Casos de éxito empresariales

Bloomberg Terminal: BloombergGPT, un modelo de 50B parámetros fine-tuned específicamente en datos financieros, supera a GPT-4 general en tareas como análisis de sentimiento financiero (91% vs 83% de precisión) y predicción de movimientos de mercado.

Código especializado: GitHub Copilot utiliza modelos Codex fine-tuned específicamente en repositorios de código, logrando una tasa de aceptación del 88% vs 34% de GPT-3 base en tareas de programación.

Medicina: Med-PaLM 2, fine-tuned en literatura médica, logra 85% de precisión en exámenes médicos profesionales vs 67% de PaLM base.

Consideraciones técnicas del fine-tuning

Catastrophic forgetting: Un desafío donde el modelo "olvida" capacidades generales al especializarse. Técnicas como regularización y replay memory mitigan este problema.

Data quality: El fine-tuning amplifica tanto la calidad como los sesgos de los datos de entrenamiento. 1,000 ejemplos de alta calidad superan típicamente a 10,000 ejemplos mediocres.

Evaluación: Métricas especializadas son cruciales. BLEU y ROUGE para traducción, CodeBLEU para código, F1-score para clasificación, etc.

El futuro inmediato: hacia dónde evoluciona la tecnología

Los LLMs están en constante evolución, con desarrollos que prometen revolucionar aún más nuestra interacción con la IA. Las tendencias actuales apuntan hacia sistemas más eficientes, especializados y multimodales.

Modelos multimodales

La integración de texto, imagen, audio y video en un solo modelo representa el siguiente salto evolutivo. GPT-4V (Vision) ya demuestra capacidades impresionantes:

Análisis de gráficos complejos con precisión del 87%
Descripción de imágenes que supera a humanos en detalle técnico
Resolución de problemas matemáticos a partir de diagramas dibujados a mano

Gemini Ultra de Google va más allá, procesando simultáneamente texto, imagen, audio y código, logrando un rendimiento superior en 30 de 32 benchmarks académicos.

Eficiencia computacional

La democratización de los LLMs depende crucialmente de reducir los requisitos computacionales:

Quantización avanzada: Técnicas como QLoRA permiten ejecutar modelos de 70B parámetros en hardware de consumo (24GB VRAM vs 140GB originalmente requeridos).

Model distillation: Mistral 7B logra 83% del rendimiento de modelos 10x más grandes, mientras que Phi-3 Mini (3.8B parámetros) supera a modelos de 25B en benchmarks específicos.

Mixture of Experts (MoE): Arquitecturas como GPT-4 utilizan expertos especializados, activando solo una fracción del modelo para cada tarea, reduciendo costos de inferencia en 6x manteniendo el rendimiento.

Reasoning y planificación

Los próximos avances se centran en capacidades de razonamiento más sofisticadas:

Chain-of-thought nativo: Integración del razonamiento paso-a-paso directamente en la arquitectura
Tool use: Modelos que pueden utilizar APIs, bases de datos y herramientas externas de forma autónoma
Multi-step planning: Capacidad de descomponer tareas complejas en subtareas ejecutables

Anthropic reporta que Claude-3 puede ejecutar planes de múltiples pasos con éxito en el 78% de casos vs 23% de modelos anteriores.

Implicaciones prácticas

Estos avances técnicos se traducen en aplicaciones cada vez más sofisticadas:

Asistentes de programación que pueden desarrollar aplicaciones completas
Tutores personalizados que adaptan metodologías pedagógicas en tiempo real
Analistas de negocio capaces de procesar datos multimodales y generar insights accionables

Como mencionamos en nuestro análisis sobre el impacto de los LLMs en el trabajo, estamos apenas comenzando a explorar el potencial de esta tecnología. La comprensión técnica de cómo funcionan estos sistemas es fundamental para aprovechar efectivamente sus capacidades y navegar responsablemente hacia un futuro donde la colaboración humano-IA sea la norma.

La revolución de los LLMs no es solo tecnológica, es fundamentalmente sobre amplificar la capacidad humana para procesar información, generar conocimiento y resolver problemas complejos. Los próximos años determinarán si lograremos realizar este potencial de manera que beneficie a toda la sociedad.

Recursos adicionales

Attention Is All You Need - Paper original de Transformers (2017)
OpenAI - GPT-4 Technical Report (2023)
Google AI - PaLM 2 Technical Report (2023)
Anthropic - Constitutional AI Paper (2022)

Los transformadores han revolucionado la inteligencia artificial, pero ¿cómo logran realmente que una máquina "comprenda" el lenguaje humano? Desde los mecanismos de atención hasta el proceso de entrenamiento, desvelamos la ingeniería detrás de la tecnología que está transformando el mundo del trabajo.

Cuando escribes "Explícame la relatividad" a ChatGPT y obtienes una respuesta coherente y contextualizada, estás siendo testigo de una de las hazañas de ingeniería más impresionantes de nuestro tiempo. Pero ¿qué sucede realmente en esos milisegundos entre tu pregunta y la respuesta?

Contrario a la percepción popular, los LLMs no "piensan" como los humanos. No tienen consciencia ni comprensión real del mundo. Sin embargo, han logrado algo extraordinario: predecir la siguiente palabra con tal precisión que el resultado parece inteligencia genuina.

En este artículo, desvelaremos los mecanismos internos que hacen posible esta magia tecnológica, desde la arquitectura de transformadores hasta el proceso de entrenamiento que consume más electricidad que países enteros.

Tabla de contenidos

Los transformadores: la arquitectura que cambió todo
El mecanismo de atención: cómo los LLMs "entienden" el contexto
Del entrenamiento a la inferencia: el proceso completo
Comparando arquitecturas: GPT vs BERT vs T5
Los números detrás de la magia: parámetros y escalabilidad
Fine-tuning: especializando el conocimiento general