Phase 15 - Lesson 02
STaR, V-STaR, Quiet-STaR — Raciocínio Autoaprendido
O menor loop de autoaprimoramento possível reside dentro da justificativa (rationale). Um modelo gera uma cadeia de pensamento, mantém aquelas que levam a respostas corretas e faz o ajuste fino (fine-tuning) nelas. Isso é o STaR. O V-STaR adiciona um verificador para melhorar a seleção em tempo de inferência. O Quiet-STaR leva a justificativa para cada token. Todos os três funcionam. Nenhum deles é mágico — o loop preserva qualquer atalho que por acaso tenha chegado à resposta correta.
Type: Learn Languages: Python (stdlib, bootstrap-loop simulator) Prerequisites: Phase 13 · 01-03 (Reasoning and CoT), Phase 15 · 01 (long-horizon framing) Time: ~60 minutos
O Problema
A maneira direta de ensinar um modelo a raciocinar é coletar rastros de raciocínio escritos por humanos. Isso é caro, lento e limitado pela quantidade de cadeias de pensamento de alta qualidade que os humanos estão dispostos a escrever.
O STaR (Self-Taught Reasoner, Zelikman et al., 2022) questiona: e se o modelo escrevesse suas próprias justificativas e as avaliasse em relação a respostas conhecidas? O loop é:
- Amostrar um rastro de raciocínio mais a resposta.
- Se a resposta final estiver correta, manter o rastro.
- Fazer o ajuste fino (fine-tuning) nos rastros mantidos.
- Repetir.
Isso funciona. O GSM8K e o CommonsenseQA melhoraram sem nenhuma nova anotação humana. Mas o loop possui um viés embutido: qualquer justificativa que produziu a resposta correta é mantida, independentemente de o raciocínio em si ser sólido. O V-STaR (Hosseini et al., 2024) corrige isso com um verificador treinado; o Quiet-STaR (Zelikman et al., 2024) generaliza a ideia para justificativas internas por token.
O Conceito
STaR: bootstrap no que funcionou
Comece a partir de um modelo base com alguma habilidade de raciocínio fraca. Em cada problema de treinamento, amostre uma justificativa mais a resposta. Se a resposta corresponder ao rótulo (label), mantenha a tripla (problema, justificativa, resposta). Faça o ajuste fino do modelo no conjunto mantido. Repetir.
Um detalhe importante: se o modelo nunca conseguir acertar um problema, o loop não aprenderá com ele. O STaR adiciona racionalização: para problemas em que o modelo falha, injete a resposta correta como uma dica e solicite novamente que o modelo produza uma justificativa que leve a ela. Justificativas racionalizadas são adicionadas ao conjunto de treinamento.
Resultado no artigo original (Zelikman et al., 2022): um modelo base GPT-J melhorou no GSM8K de 5,8% para 10,7% por meio de rodadas repetidas de STaR com racionalização — cerca de 5 pontos percentuais absolutos. No CommonsenseQA, o GPT-J 6B treinado com STaR alcançou 72,5%, comparável a um GPT-3 175B ajustado (~73%) — um modelo aproximadamente 30 vezes maior treinado com justificativas anotadas à mão.
V-STaR: treinar um verificador com DPO
O STaR descarta as justificativas incorretas. Hosseini et al. (2024) observaram que estas também são dados úteis: cada par de (justificativa, "está correto") pode treinar um verificador. Eles usam a Otimização de Preferência Direta (Direct Preference Optimization - DPO) sobre soluções corretas e incorretas para construir um classificador (ranker). No tempo de inferência, são amostradas N justificativas e escolhe-se a melhor opção do verificador.
Diferença relatada: +4 a +17 pontos percentuais sobre as linhas de base anteriores de autoaprimoramento no GSM8K e MATH, com a maior parte do ganho vindo do uso do verificador para seleção no tempo de inferência, em vez de um ajuste fino adicional do gerador.
Quiet-STaR: justificativas internas por token
Zelikman et al. (2024) perguntaram: e se o modelo aprendesse a gerar uma breve justificativa interna em cada posição de token, e não apenas entre o problema e a resposta? O Quiet-STaR treina um modelo para emitir um "pensamento" oculto antes de cada token previsto, misturando então a previsão ciente do pensamento com a previsão de linha de base por meio de um peso aprendido.
Resultado: o Mistral 7B obteve melhorias absolutas de zero-shot no GSM8K de 5,9% para 10,9% e no CommonsenseQA de 36,3% para 47,2% sem ajuste fino específico para a tarefa. O modelo aprendeu "quando pensar" — tokens difíceis recebem justificativas internas mais longas; tokens fáceis quase nenhuma.
Por que os três compartilham uma preocupação de segurança
Todos os três métodos usam a resposta final como sinal de gradiente. Uma justificativa que chega à resposta certa por meio de um raciocínio falho — explorando um atalho, adivinhando ou usando um padrão não generalizável — é reforçada positivamente. Em problemas dentro da distribuição (in-distribution), o atalho funciona. Em problemas fora da distribuição (out-of-distribution - OOD), ele falha silenciosamente.
O verificador do V-STaR mitiga isso ao aprender a ranquear as justificativas, mas o verificador é treinado no mesmo conjunto de rótulos. Ele pode aprender a preferir um raciocínio errado bem formatado em vez de uma incerteza honesta. O design mais seguro é combinar dados do estilo STaR com (a) modelos de recompensa supervisionados por processo (recompensando etapas intermediárias, não apenas as respostas) e (b) avaliação OOD separada que quebre atalhos simples.
Comparação
| Método | Sinal de treinamento | Custo de inferência | Desperdício de dados | Modo de falha conhecido |
|---|---|---|---|---|
| STaR | manter (justificativa, resposta) se estiver correto | 1x | descarta todas as justificativas incorretas | justificativas de atalho |
| STaR + racionalização | acima + tentativas com dica da resposta correta | 1x | menor | justificativas racionalizadas podem ser implausíveis |
| V-STaR | STaR + verificador DPO de ambas as classes | Nx (best-of-N) | mínimo | o verificador pode reforçar erros confiantes |
| Quiet-STaR | justificativa por token + peso de mistura | 1,5-3x | mínimo | ainda utiliza gradiente condicionado à resposta |
Onde isso se posiciona no stack de 2026
O STaR é antigo. Mas o padrão reaparece em todos os lugares em 2025-2026. O aprendizado por reforço (RL) em problemas matemáticos verificáveis (DeepSeek-R1, Kimi-k1.5, o1) é o sinal de gradiente condicionado à resposta do STaR, escalado. Modelos de recompensa de processo (Lightman et al., 2023; "Let's verify step by step" da OpenAI) são a alternativa supervisionada por processo. O AlphaEvolve (Lição 3) é o STaR para código, com um avaliador de programa em vez de um rótulo. A Máquina de Gödel de Darwin (Lição 4) é o STaR para o próprio scaffolding do agente.
Compreender o STaR faz com que tudo isso faça sentido. É o loop mínimo viável de autoaprimoramento.
Use-o
O arquivo code/main.py roda uma simulação do loop STaR em uma tarefa aritmética simples. Você pode observar:
- Como a acurácia sobe ao longo das rodadas de bootstrap.
- Como os atalhos se infiltram: o simulador inclui uma classe de justificativa "preguiçosa" (lazy) que chega à resposta correta 40% das vezes, mas generaliza mal. Observe se o STaR as mantém.
- Como um verificador (estilo V-STaR) ajuda na inferência, mas não consegue podar completamente os atalhos introduzidos durante o treinamento.
Envie-o
O arquivo outputs/skill-star-loop-reviewer.md ajuda você a auditar um pipeline de raciocínio autoaprendido proposto antes de realizar o treinamento.
Exercícios
Execute o simulador. Defina a frequência de atalho como zero e depois como 0,4. Quanto a acurácia final diverge entre as duas execuções, embora ambas atinjam >90% na distribuição de treinamento?
Adicione um teste OOD separado ao simulador. Extraia problemas de uma distribuição diferente e avalie o modelo bootstrapped tanto nos conjuntos in-distribution quanto nos OOD. Quantifique a lacuna.
Leia o artigo do Quiet-STaR (arXiv:2403.09629) Seção 3. Explique o token de "fim de pensamento" (end-of-thought) e a cabeça do peso de mistura (mixing-weight head) em três frases cada.
Compare o filtro "manter se correto" do STaR com uma alternativa supervisionada por processo que recompensa cada etapa de justificativa de forma independente. Identifique a diferença no custo de rotulagem e a diferença plausível na qualidade.
Projete uma avaliação que detecte justificativas de atalho em um modelo implantado. Não precisa ser perfeita — ela deve quebrar os atalhos mais simples que um loop STaR reforçaria.
Termos-Chave
| Termo | O que dizem | O que realmente significa |
|---|---|---|
| STaR | "Self-Taught Reasoner" | Ajuste fino em justificativas geradas pelo modelo que levam a respostas corretas; repetir |
| Racionalização | "Tentativa com dica" | Injetar a resposta correta e solicitar uma nova justificativa para problemas em que o modelo base falha |
| V-STaR | "Verifier STaR" | Treinar um verificador com DPO em justificativas corretas e incorretas; usá-lo para seleção em tempo de inferência |
| Quiet-STaR | "Justificativas por token" | Gerar pensamentos ocultos em cada posição de token; misturar com a previsão da linha de base |
| Gradiente condicionado à resposta | "Sinal baseado em resultados" | O loop de treinamento recompensa respostas finais, não etapas de raciocínio |
| Modelo de recompensa de processo | "Verificador a nível de etapa" | Modelo de recompensa treinado na correção por etapa, não no resultado final — contrasta com o STaR |
| Justificativa de atalho | "Resposta certa, raciocínio errado" | Uma justificativa que chega ao rótulo por meio de um padrão não generalizável; o STaR as mantém |
Leituras Adicionais
- Zelikman et al. (2022). STaR: Bootstrapping Reasoning With Reasoning — o artigo original.
- Hosseini et al. (2024). V-STaR: Training Verifiers for Self-Taught Reasoners — adiciona um verificador DPO para seleção no tempo de inferência.
- Zelikman et al. (2024). Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking — justificativas internas por token.
- Lightman et al. (2023). Let's Verify Step by Step — modelos de recompensa de processo, o sinal de gradiente alternativo.
- DeepSeek-R1 paper (arXiv:2501.12948) — RL em tarefas verificáveis, STaR escalado para o treinamento de fronteira.