Phase 07 - Lesson 13

Leis de Escala

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

O artigo de Kaplan de 2020 dizia: modelo maior, menor perda. O artigo de Hoffmann de 2022 disse: você estava subtreinando. A computação é dividida em dois baldes — parâmetros e tokens — e a divisão não é óbvia.

Tipo: Learn Linguagens: Python Pré-requisitos: Phase 7 · 05 (Full Transformer), Phase 7 · 07 (GPT) Tempo: ~45 minutos

O Problema

Quando você tem C FLOPs de computação de treinamento e deseja o melhor modelo, você se depara com dois botões de ajuste:

Quantos parâmetros (N)? Modelo maior, maior capacidade.
Quantos tokens de treinamento (D)? Mais dados, melhor uso da capacidade.

Os FLOPs escalam aproximadamente como 6 × N × D. Você pode aumentar N e diminuir D, ou aumentar D e diminuir N. O que é melhor?

Antes de 2022, a resposta era "forçar o aumento de N". O GPT-3 (2020) tinha 175B de parâmetros e foi treinado com ~300B de tokens. Uma proporção de cerca de 1,7 tokens por parâmetro. As leis de escala de Kaplan corroboravam isso.

Hoffmann et al. (2022), ao treinar uma pequena família de modelos chamada Chinchilla, descobriram algo diferente: a proporção ideal está mais próxima de 20 tokens por parâmetro. O GPT-3 estava 10× subtreinado. O Chinchilla (70B de parâmetros, 1,4T de tokens) superou o GPT-3 (175B de parâmetros, 300B de tokens) em todos os benchmarks com um custo de inferência 2,5× menor.

2026 é o mundo do Chinchilla — com uma reviravolta importante. O Llama 3 8B foi treinado com 15 trilhões de tokens, uma proporção de 1.875 tokens por parâmetro. Noventa e quatro vezes além do ideal do Chinchilla. O custo de inferência importa mais do que o custo de treinamento para modelos que serão usados em escala, de modo que o supertreinamento (além do Chinchilla) para obter uma menor pegada de implantação é o padrão em 2026.

O Conceito

Curvas do Chinchilla: perda vs computação em várias proporções N/D

A lei de Hoffmann

Do artigo do Chinchilla, a perda segue:

L(N, D) = A / N^α + B / D^β + E

N = parâmetros (excluindo embeddings).
D = tokens de treinamento.
α ≈ 0.34, β ≈ 0.28 (aproximadamente simétricos).
E ≈ 1.69, o piso de perda irredutível.
A ≈ 406, B ≈ 411.

Dois termos se compensam conforme você escala. Calcule a derivada em relação a N com computação fixa (C = 6ND) e resolva:

N_opt ≈ 0.6 × (C/6)^0.5
D_opt ≈ 0.6 × (C/6)^0.5
D_opt / N_opt ≈ 20

Computação ideal: 20 tokens por parâmetro.

Por que o supertreinamento afinal

O ideal do Chinchilla minimiza a perda de treinamento por FLOP de treinamento. Mas você paga o custo de treinamento uma única vez e o custo de inferência para sempre.

Para um chatbot que atende um trilhão de tokens por mês, a inferência domina o custo total. A abordagem do Llama é: treinar um modelo menor por mais tempo. O de 8B com 15T de tokens é profundamente otimizado para inferência:

Cabe em GPUs de consumo.
A latência é uma fração da do modelo de 70B ideal do Chinchilla.
A qualidade é próxima o suficiente para a maioria das tarefas.

O artigo da DeepMind de 2024 ("Over-training is the new optimal") formalizou isso. Para cargas de trabalho dominadas por inferência, a proporção correta está mais próxima de 100 a 500 tokens por parâmetro, dependendo do volume de atendimento.

Emergência vs suavidade

Alegação: certas habilidades (aritmética, raciocínio em múltiplas etapas, acompanhamento de cadeia de pensamento) "emergem" de repente em determinada escala.

Schaeffer et al. (2023) argumentaram que isso é um artefato de medição: as métricas emergentes usam pontuação descontínua (correspondência exata, acurácia em um limite) que oculta a melhoria suave nos logits subjacentes. Métricas contínuas (entropia cruzada) mostram curvas suaves.

Em 2026, o consenso é: previsões por meio de perda contínua são confiáveis. Saltos nos benchmarks são frequentemente artefatos do método de avaliação. Planeje orçamentos com base em métricas contínuas.

O cenário de 2026

As leis de escala ainda funcionam, mas:

Fator	O que mudou
Qualidade dos dados	Curadoria de tokens "bons" (estilo Phi) desloca as curvas em >2× a computação efetiva
MoE	Parâmetros totais se desacoplam dos FLOPs ativos; leis de escala valem por FLOP ativo
Pós-treinamento	Algumas capacidades (seguir instruções, código) mudam mais com SFT+RLHF do que com o pré-treinamento
Multimodalidade	Tokens de imagem + texto escalam juntos; curvas separadas por modalidade
Dados sintéticos	Modelos geram dados de treinamento; a computação efetiva pode ter efeito composto

O otimizador Muon (Kimi Moonlight, 2024) mostrou um ganho de ~2× em computação efetiva em relação ao AdamW com os mesmos dados. Algumas execuções de treinamento em 2026 usam o Muon por padrão. Isso altera a constante absoluta na lei de escala, não o seu formato.

Construa

Consulte code/main.py. Nós implementamos a equação de perda do Chinchilla e encontramos a combinação ideal de computação (N, D) para vários orçamentos computacionais.

Passo 1: Perda do Chinchilla

def chinchilla_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28, E=1.69):
    return A / N ** alpha + B / D ** beta + E

Plote L como um contorno sobre (N, D) com C = 6ND fixo. Encontre o mínimo.

Passo 2: Fronteira ideal de computação

Para orçamentos computacionais de 1e17 a 1e25 FLOPs, encontre (N, D) que minimizam a perda sujeitos a 6ND = C. Verifique a proporção D/N ≈ 20.

Passo 3: Custo do supertreinamento

Calcule a perda extra que você paga ao treinar um modelo 10× menor (1/10 do N ideal, 10× o D ideal). Em contrapartida, reporte a economia de FLOPs de inferência (proporcional a N).

Passo 4: Compare com modelos reais

Insira pares (N, D) conhecidos do GPT-3, Chinchilla, Llama 3 8B, DeepSeek-V3 (parâmetros ativos) e compare a perda prevista com a relatada.

Utilize

É improvável que você treine um modelo de fronteira por conta própria. No entanto, as leis de escala lhe dizem:

Se o seu ajuste fino tem dados suficientes. Se os seus dados específicos da tarefa estiverem abaixo de 20 tokens por parâmetro do modelo base, espere uma saturação em algum piso de perda.
Se deve escolher um modelo base maior. Se você estiver gastando todo o seu orçamento em inferência, prefira um modelo menor treinado por mais tempo.
Onde os retornos diminuem. Além de 1000× o ideal do Chinchilla, as mudanças na perda logarítmica tornam-se ruído.

A trajetória da pesquisa em 2026:

Regime limitado por dados. A web possui um número finito de tokens de alta qualidade (~5 a 10 trilhões em inglês após a filtragem). O pré-treinamento de fronteira está se aproximando desse limite máximo. Dados sintéticos, multilinguismo, multimodalidade e ajuste fino escalado por RLHF são as próximas alavancas.
Truques de multiplicação de computação. Otimizador Muon, MoE, melhor curadoria de dados — cada um altera as constantes absolutas, não a assíntota.
Leis de escala para RL (Aprendizado por Reforço). Questão em aberto. Evidências iniciais sugerem uma lei de potência em amostras de RL, mas com expoentes muito diferentes do pré-treinamento.

Publique

Consulte outputs/skill-training-budget-estimator.md. A habilidade escolhe (N, D, hours, GPU) para uma nova execução de treinamento, dado o orçamento computacional, restrições de implantação e perda-alvo.

Exercícios

Fácil. Execute code/main.py. Imprima a combinação (N, D) ideal do Chinchilla para orçamentos computacionais de 1e20, 1e22, 1e24. Compare com a tabela de modelos reais.
Médio. Implemente a curva de perda como função de computação de Hoffmann. Plote perda vs log10(C) para a fronteira ideal de computação. Identifique quando a lei prevê que precisaríamos de >10^28 FLOPs para a próxima redução de 0,1 na entropia cruzada.
Difícil. Ajuste sua própria lei de escala em 5 modelos minúsculos (100K a 10M de parâmetros) treinados no mesmo conjunto de dados. Estime α e E. Quão bem seus expoentes correspondem aos publicados?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Parâmetros (N)	"Tamanho do modelo"	Contagem de pesos que não são de embedding; determina a capacidade.
Tokens (D)	"Dados de treinamento"	Número de tokens de treinamento vistos; determina quão bem os parâmetros são utilizados.
Computação (C)	"FLOPs gastos"	Aproximadamente `6 × N × D` para um transformer padrão.
Ideal do Chinchilla	"D/N ≈ 20"	Proporção que minimiza a perda por FLOP de pré-treinamento.
Supertreinamento	"Além do Chinchilla"	Gastar FLOPs de treinamento adicionais para economizar FLOPs de inferência; D/N >> 20.
Perda irredutível	"O piso"	O termo `E` na lei de escala; a entropia dos próprios dados.
Capacidade emergente	"Saltos repentinos em escala"	Geralmente um artefato do avaliador; a perda contínua é suave.
Computação efetiva	"Multiplicador de eficiência de treinamento"	Melhores dados / otimizador / arquitetura multiplicam o quanto um FLOP rende.

Leitura Adicional

Kaplan et al. (2020). Scaling Laws for Neural Language Models — o primeiro artigo sobre leis de escala; subtreinado.
Hoffmann et al. (2022). Training Compute-Optimal Large Language Models — Chinchilla.
Schaeffer et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? — a emergência como artefato de medição.
Sardana, Frankle (2024). Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws — por que o supertreinamento do Llama está correto para sua carga de trabalho.
Jordan et al. (2024). Muon: An optimizer for hidden layers in neural networks — multiplicador de computação de 2×.