Phase 07 - Lesson 13

Leyes de Escala

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

El artículo de Kaplan de 2020 decía: modelo más grande, menor pérdida. El artículo de Hoffmann de 2022 dijo: estabas subentrenando. El cómputo se divide en dos categorías — parámetros y tokens — y la división no es obvia.

Tipo: Learn Lenguajes: Python Prerrequisitos: Phase 7 · 05 (Full Transformer), Phase 7 · 07 (GPT) Tiempo: ~45 minutos

El Problema

Cuando tienes C FLOPs de cómputo de entrenamiento y quieres el mejor modelo, te enfrentas a dos perillas de ajuste:

  1. ¿Cuántos parámetros (N)? Modelo más grande, mayor capacidad.
  2. ¿Cuántos tokens de entrenamiento (D)? Más datos, mejor uso de la capacidad.

Los FLOPs escalan aproximadamente como 6 × N × D. Puedes aumentar N y disminuir D, o aumentar D y disminuir N. ¿Qué es mejor?

Antes de 2022, la respuesta era "forzar el aumento de N". GPT-3 (2020) tenía 175B de parámetros entrenados con ~300B de tokens. Una relación de aproximadamente 1.7 tokens por parámetro. Las leyes de escala de Kaplan respaldaban esto.

Hoffmann et al. (2022), al entrenar una pequeña familia de modelos llamada Chinchilla, descubrieron algo diferente: la relación óptima está más cerca de 20 tokens por parámetro. GPT-3 estaba subentrenado por un factor de 10×. Chinchilla (70B de parámetros, 1.4T de tokens) superó a GPT-3 (175B de parámetros, 300B de tokens) en cada evaluación comparativa (benchmark) con un costo de inferencia 2.5× menor.

2026 es el mundo de Chinchilla, con un giro importante. Llama 3 8B fue entrenado con 15 billones de tokens, una relación de 1,875 tokens por parámetro. Noventa y cuatro veces más allá del óptimo de Chinchilla. El costo de inferencia importa más que el costo de entrenamiento para los modelos que se utilizarán a escala, por lo que el sobreentrenamiento (más allá de Chinchilla) para obtener una menor huella de despliegue es el estándar en 2026.

El Concepto

Curvas de Chinchilla: pérdida vs cómputo en varias proporciones N/D

La ley de Hoffmann

Del artículo de Chinchilla, la pérdida sigue la siguiente ecuación:

L(N, D) = A / N^α + B / D^β + E
  • N = parámetros (excluyendo embeddings).
  • D = tokens de entrenamiento.
  • α ≈ 0.34, β ≈ 0.28 (aproximadamente simétricos).
  • E ≈ 1.69, el piso de pérdida irreducible.
  • A ≈ 406, B ≈ 411.

Ambos términos se compensan mutuamente a medida que escalas. Toma la derivada respecto a N con un cómputo fijo (C = 6ND) y resuelve:

N_opt ≈ 0.6 × (C/6)^0.5
D_opt ≈ 0.6 × (C/6)^0.5
D_opt / N_opt ≈ 20

Cómputo óptimo: 20 tokens por parámetro.

Por qué sobreentrenar de todos modos

El óptimo de Chinchilla minimiza la pérdida de entrenamiento por FLOP de entrenamiento. Pero el costo de entrenamiento se paga una sola vez; el costo de inferencia, para siempre.

Para un chatbot que atiende un billón de tokens al mes, la inferencia domina el costo total. El enfoque de Llama es: entrenar un modelo más pequeño por más tiempo. El de 8B con 15 billones (15T) de tokens está profundamente optimizado para la inferencia:

  • Cabe en GPUs de consumo.
  • La latencia es una fracción de la del modelo de 70B óptimo de Chinchilla.
  • La calidad es lo suficientemente cercana para la mayoría de las tareas.

El artículo de DeepMind de 2024 ("Over-training is the new optimal") formalizó esto. Para cargas de trabajo dominadas por inferencia, la proporción correcta está más cerca de 100 a 500 tokens por parámetro, dependiendo del volumen de consultas.

Emergencia vs suavidad

Afirmación: ciertas habilidades (aritmética, razonamiento de múltiples pasos, seguimiento de cadena de pensamiento) "emergen" repentinamente a cierta escala.

Schaeffer et al. (2023) argumentaron que esto es un artefacto de medición: las métricas emergentes utilizan evaluaciones discontinuas (coincidencia exacta, precisión bajo un umbral) que ocultan la mejora progresiva en los logits subjacentes. Las métricas continuas (entropía cruzada) muestran curvas suaves.

En 2026, el consenso es: las predicciones a través de la pérdida continua son confiables. Los saltos en las evaluaciones comparativas (benchmarks) suelen ser artefactos del método de evaluación. Planifica los presupuestos en función de métricas continuas.

El panorama en 2026

Las leyes de escala siguen funcionando, pero:

Factor Qué cambió
Calidad de los datos La curaduría de tokens "buenos" (estilo Phi) desplaza las curvas en >2× el cómputo efectivo
MoE Los parámetros totales se desacoplan de los FLOPs activos; leyes de escala por FLOP activo
Postentrenamiento Algunas capacidades (seguir instrucciones, código) cambian más con SFT+RLHF que con el preentrenamiento
Multimodalidad Los tokens de imagen + texto escalan juntos; curvas separadas por modalidad
Datos sintéticos Los modelos generan datos de entrenamiento; el cómputo efectivo puede tener un efecto compuesto

El optimizador Muon (Kimi Moonlight, 2024) mostró una ganancia de ~2× en cómputo efectivo sobre AdamW con los mismos datos. Algunos entrenamientos de 2026 usan Muon por defecto. Esto cambia la constante absoluta en la ley de escala, no su forma.

Desarrolla

Consulta code/main.py. Implementamos la ecuación de pérdida de Chinchilla y resolvemos para obtener el cómputo óptimo (N, D) en cada uno de los distintos presupuestos de cómputo.

Paso 1: Pérdida de Chinchilla

def chinchilla_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28, E=1.69):
    return A / N ** alpha + B / D ** beta + E

Grafica L como un contorno sobre (N, D) con C = 6ND fijo. Encuentra el mínimo.

Paso 2: Frontera de cómputo óptimo

Para presupuestos de cómputo de 1e17 a 1e25 FLOPs, encuentra (N, D) que minimicen la pérdida con la condición de 6ND = C. Verifica que la relación D/N ≈ 20.

Paso 3: Costo del sobreentrenamiento

Calcula la pérdida adicional que pagas al entrenar un modelo 10× más pequeño (1/10 del N óptimo, 10× el D óptimo). Reporta a cambio el ahorro en FLOPs de inferencia (proporcional a N).

Paso 4: Comparación con modelos reales

Introduce los pares (N, D) conocidos para GPT-3, Chinchilla, Llama 3 8B, DeepSeek-V3 (parámetros activos) y compara la pérdida esperada contra la reportada.

Utilízalo

Es poco probable que entrenes un modelo de frontera por ti mismo. Sin embargo, las leyes de escala te indican:

  1. Si tu ajuste fino (fine-tune) tiene suficientes datos. Si tus datos específicos de la tarea están por debajo de 20 tokens por parámetro del modelo base, espera una saturación en algún piso de pérdida.
  2. Si debes elegir un modelo base más grande. Si estás gastando todo tu presupuesto en inferencia, prefiere un modelo más pequeño y entrenado durante más tiempo.
  3. Dónde disminuyen los rendimientos. Más allá de 1000× el óptimo de Chinchilla, los cambios en la pérdida logarítmica se convierten en ruido.

La trayectoria de la investigación en 2026:

  • Régimen limitado por datos. La web tiene un número limitado de tokens de alta calidad (entre 5 y 10 billones en inglés después de filtrar). El preentrenamiento de frontera se está acercando a este límite. Los datos sintéticos, el multilingüismo, la multimodalidad y el ajuste fino escalado por RLHF son las siguientes herramientas.
  • Trucos de multiplicación de cómputo. El optimizador Muon, MoE, una mejor curación de datos; cada uno desplaza las constantes absolutas, no la asíntota.
  • Leyes de escala para RL (Aprendizado por Refuerzo). Pregunta abierta. La evidencia inicial sugiere una ley de potencia en las muestras de RL, pero con exponentes muy diferentes a los del preentrenamiento.

Publícalo

Consulta outputs/skill-training-budget-estimator.md. La habilidad selecciona (N, D, hours, GPU) para una nueva ejecución de entrenamiento a partir del presupuesto de cómputo, las restricciones de despliegue y la pérdida objetivo.

Ejercicios

  1. Fácil. Ejecuta code/main.py. Imprime el óptimo de Chinchilla (N, D) para los presupuestos de cómputo 1e20, 1e22, 1e24. Compáralo con la tabla de modelos reales.
  2. Medio. Implementa la curva de pérdida como función de cómputo de Hoffmann. Grafica la pérdida contra log10(C) para la frontera de cómputo óptimo. Identifica cuándo la ley predice que necesitaríamos >10^28 FLOPs para la siguiente reducción de 0.1 en la entropía cruzada.
  3. Difícil. Ajusta tu propia ley de escala en 5 modelos diminutos (de 100K a 10M de parámetros) entrenados en el mismo conjunto de datos. Estima α y E. ¿Qué tan bien coinciden tus exponentes con los publicados?

Términos Clave

Término Lo que la gente dice Lo que realmente significa
Parámetros (N) "Tamaño del modelo" Cantidad de pesos que no son de embedding; determina la capacidad.
Tokens (D) "Datos de entrenamiento" Número de tokens de entrenamiento procesados; determina qué tan bien se utilizan los parámetros.
Cómputo (C) "FLOPs invertidos" Aproximadamente 6 × N × D para un transformer estándar.
Óptimo de Chinchilla "D/N ≈ 20" Relación que minimiza la pérdida por FLOP de preentrenamiento.
Sobreentrenamiento "Más allá de Chinchilla" Invertir FLOPs adicionales de entrenamiento para ahorrar FLOPs de inferencia; D/N >> 20.
Pérdida irreducible "El piso" El término E en la ley de escala; la entropía de los propios datos.
Capacidad emergente "Saltos repentinos a escala" A menudo un artefacto de evaluación; la pérdida continua es suave.
Cómputo efectivo "Multiplicador de eficiencia de entrenamiento" Mejores datos / optimizadores / arquitecturas multiplican el alcance de un FLOP.

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).