Phase 15 - Lesson 02

STaR, V-STaR, Quiet-STaR — Raciocínio Autoaprendido

O menor loop de autoaprimoramento possível reside dentro da justificativa (rationale). Um modelo gera uma cadeia de pensamento, mantém aquelas que levam a respostas corretas e faz o ajuste fino (fine-tuning) nelas. Isso é o STaR. O V-STaR adiciona um verificador para melhorar a seleção em tempo de inferência. O Quiet-STaR leva a justificativa para cada token. Todos os três funcionam. Nenhum deles é mágico — o loop preserva qualquer atalho que por acaso tenha chegado à resposta correta.

Type: Learn Languages: Python (stdlib, bootstrap-loop simulator) Prerequisites: Phase 13 · 01-03 (Reasoning and CoT), Phase 15 · 01 (long-horizon framing) Time: ~60 minutos

O Problema

A maneira direta de ensinar um modelo a raciocinar é coletar rastros de raciocínio escritos por humanos. Isso é caro, lento e limitado pela quantidade de cadeias de pensamento de alta qualidade que os humanos estão dispostos a escrever.

O STaR (Self-Taught Reasoner, Zelikman et al., 2022) questiona: e se o modelo escrevesse suas próprias justificativas e as avaliasse em relação a respostas conhecidas? O loop é:

Amostrar um rastro de raciocínio mais a resposta.
Se a resposta final estiver correta, manter o rastro.
Fazer o ajuste fino (fine-tuning) nos rastros mantidos.
Repetir.

Isso funciona. O GSM8K e o CommonsenseQA melhoraram sem nenhuma nova anotação humana. Mas o loop possui um viés embutido: qualquer justificativa que produziu a resposta correta é mantida, independentemente de o raciocínio em si ser sólido. O V-STaR (Hosseini et al., 2024) corrige isso com um verificador treinado; o Quiet-STaR (Zelikman et al., 2024) generaliza a ideia para justificativas internas por token.

O Conceito

STaR: bootstrap no que funcionou

Comece a partir de um modelo base com alguma habilidade de raciocínio fraca. Em cada problema de treinamento, amostre uma justificativa mais a resposta. Se a resposta corresponder ao rótulo (label), mantenha a tripla (problema, justificativa, resposta). Faça o ajuste fino do modelo no conjunto mantido. Repetir.

Um detalhe importante: se o modelo nunca conseguir acertar um problema, o loop não aprenderá com ele. O STaR adiciona racionalização: para problemas em que o modelo falha, injete a resposta correta como uma dica e solicite novamente que o modelo produza uma justificativa que leve a ela. Justificativas racionalizadas são adicionadas ao conjunto de treinamento.

Resultado no artigo original (Zelikman et al., 2022): um modelo base GPT-J melhorou no GSM8K de 5,8% para 10,7% por meio de rodadas repetidas de STaR com racionalização — cerca de 5 pontos percentuais absolutos. No CommonsenseQA, o GPT-J 6B treinado com STaR alcançou 72,5%, comparável a um GPT-3 175B ajustado (~73%) — um modelo aproximadamente 30 vezes maior treinado com justificativas anotadas à mão.

V-STaR: treinar um verificador com DPO

O STaR descarta as justificativas incorretas. Hosseini et al. (2024) observaram que estas também são dados úteis: cada par de (justificativa, "está correto") pode treinar um verificador. Eles usam a Otimização de Preferência Direta (Direct Preference Optimization - DPO) sobre soluções corretas e incorretas para construir um classificador (ranker). No tempo de inferência, são amostradas N justificativas e escolhe-se a melhor opção do verificador.

Diferença relatada: +4 a +17 pontos percentuais sobre as linhas de base anteriores de autoaprimoramento no GSM8K e MATH, com a maior parte do ganho vindo do uso do verificador para seleção no tempo de inferência, em vez de um ajuste fino adicional do gerador.

Quiet-STaR: justificativas internas por token

Zelikman et al. (2024) perguntaram: e se o modelo aprendesse a gerar uma breve justificativa interna em cada posição de token, e não apenas entre o problema e a resposta? O Quiet-STaR treina um modelo para emitir um "pensamento" oculto antes de cada token previsto, misturando então a previsão ciente do pensamento com a previsão de linha de base por meio de um peso aprendido.

Resultado: o Mistral 7B obteve melhorias absolutas de zero-shot no GSM8K de 5,9% para 10,9% e no CommonsenseQA de 36,3% para 47,2% sem ajuste fino específico para a tarefa. O modelo aprendeu "quando pensar" — tokens difíceis recebem justificativas internas mais longas; tokens fáceis quase nenhuma.

Por que os três compartilham uma preocupação de segurança

Todos os três métodos usam a resposta final como sinal de gradiente. Uma justificativa que chega à resposta certa por meio de um raciocínio falho — explorando um atalho, adivinhando ou usando um padrão não generalizável — é reforçada positivamente. Em problemas dentro da distribuição (in-distribution), o atalho funciona. Em problemas fora da distribuição (out-of-distribution - OOD), ele falha silenciosamente.

O verificador do V-STaR mitiga isso ao aprender a ranquear as justificativas, mas o verificador é treinado no mesmo conjunto de rótulos. Ele pode aprender a preferir um raciocínio errado bem formatado em vez de uma incerteza honesta. O design mais seguro é combinar dados do estilo STaR com (a) modelos de recompensa supervisionados por processo (recompensando etapas intermediárias, não apenas as respostas) e (b) avaliação OOD separada que quebre atalhos simples.

Comparação

Método	Sinal de treinamento	Custo de inferência	Desperdício de dados	Modo de falha conhecido
STaR	manter (justificativa, resposta) se estiver correto	1x	descarta todas as justificativas incorretas	justificativas de atalho
STaR + racionalização	acima + tentativas com dica da resposta correta	1x	menor	justificativas racionalizadas podem ser implausíveis
V-STaR	STaR + verificador DPO de ambas as classes	Nx (best-of-N)	mínimo	o verificador pode reforçar erros confiantes
Quiet-STaR	justificativa por token + peso de mistura	1,5-3x	mínimo	ainda utiliza gradiente condicionado à resposta

Onde isso se posiciona no stack de 2026

O STaR é antigo. Mas o padrão reaparece em todos os lugares em 2025-2026. O aprendizado por reforço (RL) em problemas matemáticos verificáveis (DeepSeek-R1, Kimi-k1.5, o1) é o sinal de gradiente condicionado à resposta do STaR, escalado. Modelos de recompensa de processo (Lightman et al., 2023; "Let's verify step by step" da OpenAI) são a alternativa supervisionada por processo. O AlphaEvolve (Lição 3) é o STaR para código, com um avaliador de programa em vez de um rótulo. A Máquina de Gödel de Darwin (Lição 4) é o STaR para o próprio scaffolding do agente.

Compreender o STaR faz com que tudo isso faça sentido. É o loop mínimo viável de autoaprimoramento.

Use-o

O arquivo code/main.py roda uma simulação do loop STaR em uma tarefa aritmética simples. Você pode observar:

Como a acurácia sobe ao longo das rodadas de bootstrap.
Como os atalhos se infiltram: o simulador inclui uma classe de justificativa "preguiçosa" (lazy) que chega à resposta correta 40% das vezes, mas generaliza mal. Observe se o STaR as mantém.
Como um verificador (estilo V-STaR) ajuda na inferência, mas não consegue podar completamente os atalhos introduzidos durante o treinamento.

Envie-o

O arquivo outputs/skill-star-loop-reviewer.md ajuda você a auditar um pipeline de raciocínio autoaprendido proposto antes de realizar o treinamento.

Exercícios

Execute o simulador. Defina a frequência de atalho como zero e depois como 0,4. Quanto a acurácia final diverge entre as duas execuções, embora ambas atinjam >90% na distribuição de treinamento?
Adicione um teste OOD separado ao simulador. Extraia problemas de uma distribuição diferente e avalie o modelo bootstrapped tanto nos conjuntos in-distribution quanto nos OOD. Quantifique a lacuna.
Leia o artigo do Quiet-STaR (arXiv:2403.09629) Seção 3. Explique o token de "fim de pensamento" (end-of-thought) e a cabeça do peso de mistura (mixing-weight head) em três frases cada.
Compare o filtro "manter se correto" do STaR com uma alternativa supervisionada por processo que recompensa cada etapa de justificativa de forma independente. Identifique a diferença no custo de rotulagem e a diferença plausível na qualidade.
Projete uma avaliação que detecte justificativas de atalho em um modelo implantado. Não precisa ser perfeita — ela deve quebrar os atalhos mais simples que um loop STaR reforçaria.

Termos-Chave

Termo	O que dizem	O que realmente significa
STaR	"Self-Taught Reasoner"	Ajuste fino em justificativas geradas pelo modelo que levam a respostas corretas; repetir
Racionalização	"Tentativa com dica"	Injetar a resposta correta e solicitar uma nova justificativa para problemas em que o modelo base falha
V-STaR	"Verifier STaR"	Treinar um verificador com DPO em justificativas corretas e incorretas; usá-lo para seleção em tempo de inferência
Quiet-STaR	"Justificativas por token"	Gerar pensamentos ocultos em cada posição de token; misturar com a previsão da linha de base
Gradiente condicionado à resposta	"Sinal baseado em resultados"	O loop de treinamento recompensa respostas finais, não etapas de raciocínio
Modelo de recompensa de processo	"Verificador a nível de etapa"	Modelo de recompensa treinado na correção por etapa, não no resultado final — contrasta com o STaR
Justificativa de atalho	"Resposta certa, raciocínio errado"	Uma justificativa que chega ao rótulo por meio de um padrão não generalizável; o STaR as mantém

Leituras Adicionais

Zelikman et al. (2022). STaR: Bootstrapping Reasoning With Reasoning — o artigo original.
Hosseini et al. (2024). V-STaR: Training Verifiers for Self-Taught Reasoners — adiciona um verificador DPO para seleção no tempo de inferência.
Zelikman et al. (2024). Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking — justificativas internas por token.
Lightman et al. (2023). Let's Verify Step by Step — modelos de recompensa de processo, o sinal de gradiente alternativo.
DeepSeek-R1 paper (arXiv:2501.12948) — RL em tarefas verificáveis, STaR escalado para o treinamento de fronteira.