Phase 07 - Lesson 13
Leyes de Escala
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
El artículo de Kaplan de 2020 decía: modelo más grande, menor pérdida. El artículo de Hoffmann de 2022 dijo: estabas subentrenando. El cómputo se divide en dos categorías — parámetros y tokens — y la división no es obvia.
Tipo: Learn Lenguajes: Python Prerrequisitos: Phase 7 · 05 (Full Transformer), Phase 7 · 07 (GPT) Tiempo: ~45 minutos
El Problema
Cuando tienes C FLOPs de cómputo de entrenamiento y quieres el mejor modelo, te enfrentas a dos perillas de ajuste:
- ¿Cuántos parámetros (N)? Modelo más grande, mayor capacidad.
- ¿Cuántos tokens de entrenamiento (D)? Más datos, mejor uso de la capacidad.
Los FLOPs escalan aproximadamente como 6 × N × D. Puedes aumentar N y disminuir D, o aumentar D y disminuir N. ¿Qué es mejor?
Antes de 2022, la respuesta era "forzar el aumento de N". GPT-3 (2020) tenía 175B de parámetros entrenados con ~300B de tokens. Una relación de aproximadamente 1.7 tokens por parámetro. Las leyes de escala de Kaplan respaldaban esto.
Hoffmann et al. (2022), al entrenar una pequeña familia de modelos llamada Chinchilla, descubrieron algo diferente: la relación óptima está más cerca de 20 tokens por parámetro. GPT-3 estaba subentrenado por un factor de 10×. Chinchilla (70B de parámetros, 1.4T de tokens) superó a GPT-3 (175B de parámetros, 300B de tokens) en cada evaluación comparativa (benchmark) con un costo de inferencia 2.5× menor.
2026 es el mundo de Chinchilla, con un giro importante. Llama 3 8B fue entrenado con 15 billones de tokens, una relación de 1,875 tokens por parámetro. Noventa y cuatro veces más allá del óptimo de Chinchilla. El costo de inferencia importa más que el costo de entrenamiento para los modelos que se utilizarán a escala, por lo que el sobreentrenamiento (más allá de Chinchilla) para obtener una menor huella de despliegue es el estándar en 2026.
El Concepto
La ley de Hoffmann
Del artículo de Chinchilla, la pérdida sigue la siguiente ecuación:
L(N, D) = A / N^α + B / D^β + E
N= parámetros (excluyendo embeddings).D= tokens de entrenamiento.α ≈ 0.34,β ≈ 0.28(aproximadamente simétricos).E ≈ 1.69, el piso de pérdida irreducible.A ≈ 406,B ≈ 411.
Ambos términos se compensan mutuamente a medida que escalas. Toma la derivada respecto a N con un cómputo fijo (C = 6ND) y resuelve:
N_opt ≈ 0.6 × (C/6)^0.5
D_opt ≈ 0.6 × (C/6)^0.5
D_opt / N_opt ≈ 20
Cómputo óptimo: 20 tokens por parámetro.
Por qué sobreentrenar de todos modos
El óptimo de Chinchilla minimiza la pérdida de entrenamiento por FLOP de entrenamiento. Pero el costo de entrenamiento se paga una sola vez; el costo de inferencia, para siempre.
Para un chatbot que atiende un billón de tokens al mes, la inferencia domina el costo total. El enfoque de Llama es: entrenar un modelo más pequeño por más tiempo. El de 8B con 15 billones (15T) de tokens está profundamente optimizado para la inferencia:
- Cabe en GPUs de consumo.
- La latencia es una fracción de la del modelo de 70B óptimo de Chinchilla.
- La calidad es lo suficientemente cercana para la mayoría de las tareas.
El artículo de DeepMind de 2024 ("Over-training is the new optimal") formalizó esto. Para cargas de trabajo dominadas por inferencia, la proporción correcta está más cerca de 100 a 500 tokens por parámetro, dependiendo del volumen de consultas.
Emergencia vs suavidad
Afirmación: ciertas habilidades (aritmética, razonamiento de múltiples pasos, seguimiento de cadena de pensamiento) "emergen" repentinamente a cierta escala.
Schaeffer et al. (2023) argumentaron que esto es un artefacto de medición: las métricas emergentes utilizan evaluaciones discontinuas (coincidencia exacta, precisión bajo un umbral) que ocultan la mejora progresiva en los logits subjacentes. Las métricas continuas (entropía cruzada) muestran curvas suaves.
En 2026, el consenso es: las predicciones a través de la pérdida continua son confiables. Los saltos en las evaluaciones comparativas (benchmarks) suelen ser artefactos del método de evaluación. Planifica los presupuestos en función de métricas continuas.
El panorama en 2026
Las leyes de escala siguen funcionando, pero:
| Factor | Qué cambió |
|---|---|
| Calidad de los datos | La curaduría de tokens "buenos" (estilo Phi) desplaza las curvas en >2× el cómputo efectivo |
| MoE | Los parámetros totales se desacoplan de los FLOPs activos; leyes de escala por FLOP activo |
| Postentrenamiento | Algunas capacidades (seguir instrucciones, código) cambian más con SFT+RLHF que con el preentrenamiento |
| Multimodalidad | Los tokens de imagen + texto escalan juntos; curvas separadas por modalidad |
| Datos sintéticos | Los modelos generan datos de entrenamiento; el cómputo efectivo puede tener un efecto compuesto |
El optimizador Muon (Kimi Moonlight, 2024) mostró una ganancia de ~2× en cómputo efectivo sobre AdamW con los mismos datos. Algunos entrenamientos de 2026 usan Muon por defecto. Esto cambia la constante absoluta en la ley de escala, no su forma.
Desarrolla
Consulta code/main.py. Implementamos la ecuación de pérdida de Chinchilla y resolvemos para obtener el cómputo óptimo (N, D) en cada uno de los distintos presupuestos de cómputo.
Paso 1: Pérdida de Chinchilla
def chinchilla_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28, E=1.69):
return A / N ** alpha + B / D ** beta + E
Grafica L como un contorno sobre (N, D) con C = 6ND fijo. Encuentra el mínimo.
Paso 2: Frontera de cómputo óptimo
Para presupuestos de cómputo de 1e17 a 1e25 FLOPs, encuentra (N, D) que minimicen la pérdida con la condición de 6ND = C. Verifica que la relación D/N ≈ 20.
Paso 3: Costo del sobreentrenamiento
Calcula la pérdida adicional que pagas al entrenar un modelo 10× más pequeño (1/10 del N óptimo, 10× el D óptimo). Reporta a cambio el ahorro en FLOPs de inferencia (proporcional a N).
Paso 4: Comparación con modelos reales
Introduce los pares (N, D) conocidos para GPT-3, Chinchilla, Llama 3 8B, DeepSeek-V3 (parámetros activos) y compara la pérdida esperada contra la reportada.
Utilízalo
Es poco probable que entrenes un modelo de frontera por ti mismo. Sin embargo, las leyes de escala te indican:
- Si tu ajuste fino (fine-tune) tiene suficientes datos. Si tus datos específicos de la tarea están por debajo de 20 tokens por parámetro del modelo base, espera una saturación en algún piso de pérdida.
- Si debes elegir un modelo base más grande. Si estás gastando todo tu presupuesto en inferencia, prefiere un modelo más pequeño y entrenado durante más tiempo.
- Dónde disminuyen los rendimientos. Más allá de 1000× el óptimo de Chinchilla, los cambios en la pérdida logarítmica se convierten en ruido.
La trayectoria de la investigación en 2026:
- Régimen limitado por datos. La web tiene un número limitado de tokens de alta calidad (entre 5 y 10 billones en inglés después de filtrar). El preentrenamiento de frontera se está acercando a este límite. Los datos sintéticos, el multilingüismo, la multimodalidad y el ajuste fino escalado por RLHF son las siguientes herramientas.
- Trucos de multiplicación de cómputo. El optimizador Muon, MoE, una mejor curación de datos; cada uno desplaza las constantes absolutas, no la asíntota.
- Leyes de escala para RL (Aprendizado por Refuerzo). Pregunta abierta. La evidencia inicial sugiere una ley de potencia en las muestras de RL, pero con exponentes muy diferentes a los del preentrenamiento.
Publícalo
Consulta outputs/skill-training-budget-estimator.md. La habilidad selecciona (N, D, hours, GPU) para una nueva ejecución de entrenamiento a partir del presupuesto de cómputo, las restricciones de despliegue y la pérdida objetivo.
Ejercicios
- Fácil. Ejecuta
code/main.py. Imprime el óptimo de Chinchilla(N, D)para los presupuestos de cómputo1e20,1e22,1e24. Compáralo con la tabla de modelos reales. - Medio. Implementa la curva de pérdida como función de cómputo de Hoffmann. Grafica la pérdida contra
log10(C)para la frontera de cómputo óptimo. Identifica cuándo la ley predice que necesitaríamos>10^28FLOPs para la siguiente reducción de 0.1 en la entropía cruzada. - Difícil. Ajusta tu propia ley de escala en 5 modelos diminutos (de 100K a 10M de parámetros) entrenados en el mismo conjunto de datos. Estima
αyE. ¿Qué tan bien coinciden tus exponentes con los publicados?
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Parámetros (N) | "Tamaño del modelo" | Cantidad de pesos que no son de embedding; determina la capacidad. |
| Tokens (D) | "Datos de entrenamiento" | Número de tokens de entrenamiento procesados; determina qué tan bien se utilizan los parámetros. |
| Cómputo (C) | "FLOPs invertidos" | Aproximadamente 6 × N × D para un transformer estándar. |
| Óptimo de Chinchilla | "D/N ≈ 20" | Relación que minimiza la pérdida por FLOP de preentrenamiento. |
| Sobreentrenamiento | "Más allá de Chinchilla" | Invertir FLOPs adicionales de entrenamiento para ahorrar FLOPs de inferencia; D/N >> 20. |
| Pérdida irreducible | "El piso" | El término E en la ley de escala; la entropía de los propios datos. |
| Capacidad emergente | "Saltos repentinos a escala" | A menudo un artefacto de evaluación; la pérdida continua es suave. |
| Cómputo efectivo | "Multiplicador de eficiencia de entrenamiento" | Mejores datos / optimizadores / arquitecturas multiplican el alcance de un FLOP. |
Lecturas Adicionales
- Kaplan et al. (2020). Scaling Laws for Neural Language Models — el primer artículo sobre leyes de escala; subentrenado.
- Hoffmann et al. (2022). Training Compute-Optimal Large Language Models — Chinchilla.
- Schaeffer et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? — la emergencia como un artefacto de medición.
- Sardana, Frankle (2024). Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws — por que el sobreentrenamiento de Llama es correcto para su volumen de trabajo.
- Jordan et al. (2024). Muon: An optimizer for hidden layers in neural networks — multiplicador de cómputo de 2×.