Phase 15 - Lesson 02

STaR, V-STaR, Quiet-STaR — Razonamiento Autoaprendido

El bucle de automejora más pequeño posible reside dentro del razonamiento (rationale). Un modelo genera una cadena de pensamiento, conserva aquellas que llevan a respuestas correctas y realiza un ajuste fino (fine-tuning) sobre ellas. Eso es STaR. V-STaR agrega un verificador para mejorar la selección en tiempo de inferencia. Quiet-STaR lleva el razonamiento a cada token. Los tres funcionan. Ninguno de ellos es mágico — el bucle preserva cualquier atajo que por casualidad haya llegado a la respuesta correcta.

Type: Learn Languages: Python (stdlib, bootstrap-loop simulator) Prerequisites: Phase 13 · 01-03 (Reasoning and CoT), Phase 15 · 01 (long-horizon framing) Time: ~60 minutos

El Problema

La forma directa de enseñar a un modelo a razonar es recopilar trazas de razonamiento escritas por humanos. Eso es costoso, lento y está limitado por la cantidad de cadenas de pensamiento de alta calidad que los humanos estén dispuestos a escribir.

STaR (Self-Taught Reasoner, Zelikman et al., 2022) se pregunta: ¿qué pasa si el modelo escribe sus propios razonamientos y los evalúa en comparación con respuestas conocidas? El bucle es:

Muestrear una traza de razonamiento más la respuesta.
Si la respuesta final es correcta, conservar la traza.
Realizar un ajuste fino (fine-tuning) sobre las trazas conservadas.
Repetir.

Funciona. Tanto GSM8K como CommonsenseQA mejoraron sin nuevas anotaciones humanas. Pero el bucle tiene un sesgo integrado: cualquier razonamiento que haya producido la respuesta correcta se conserva, independientemente de si el razonamiento en sí era sólido. V-STaR (Hosseini et al., 2024) corrige esto con un verificador entrenado; Quiet-STaR (Zelikman et al., 2024) generaliza la idea a razonamientos internos por token.

El Concepto

STaR: bootstrap sobre lo que funcionó

Comience con un modelo base con alguna capacidad débil de razonamiento. En cada problema de entrenamiento, muestree un razonamiento más la respuesta. Si la respuesta coincide con la etiqueta (label), conserve el triplete (problema, razonamiento, respuesta). Realice un ajuste fino del modelo sobre el conjunto conservado. Repetir.

Un detalle importante: si el modelo nunca puede resolver un problema de forma correcta, el bucle no podrá aprender de él. STaR agrega racionalización (rationalization): para los problemas en los que el modelo falla, se inyecta la respuesta correcta como una pista y se vuelve a pedir al modelo que genere un razonamiento que conduzca a ella. Los razonamientos racionalizados se agregan al conjunto de entrenamiento.

Resultado en el artículo original (Zelikman et al., 2022): un modelo base GPT-J mejoró en GSM8K del 5.8% al 10.7% a través de rondas repetidas de STaR con racionalización — aproximadamente 5 puntos porcentuales absolutos. En CommonsenseQA, GPT-J 6B entrenado con STaR alcanzó el 72.5%, comparable a un GPT-3 175B con ajuste fino (~73%) — un modelo aproximadamente 30 veces más grande entrenado con razonamientos anotados a mano.

V-STaR: entrenar un verificador con DPO

STaR descarta los razonamientos incorrectos. Hosseini et al. (2024) observaron que estos también son datos: cada par de (razonamiento, "¿es correcto?") puede entrenar a un verificador. Utilizan la Optimización de Preferencia Directa (Direct Preference Optimization - DPO) sobre soluciones correctas e incorrectas para construir un clasificador (ranker). En el tiempo de inferencia, se muestrean N razonamientos y se elige la opción mejor valorada por el verificador.

Diferencia reportada: de +4 a +17 puntos porcentuales sobre las líneas de base de automejora anteriores en GSM8K y MATH, donde la mayor parte de la ganancia proviene del uso del verificador para la selección en el tiempo de inferencia en lugar de un ajuste fino adicional del generador.

Quiet-STaR: razonamientos internos por token

Zelikman et al. (2024) se preguntaron: ¿qué pasa si el modelo aprende a generar un breve razonamiento interno en cada posición de token, no solo entre el problema y la respuesta? Quiet-STaR entrena a un modelo para emitir un "pensamiento" oculto antes de cada token predicho, y luego mezcla la predicción consciente del pensamiento con la predicción de la línea de base mediante un peso aprendido.

Resultado: Mistral 7B obtuvo mejoras absolutas de zero-shot en GSM8K del 5.9% al 10.9% y en CommonsenseQA del 36.3% al 47.2% sin ajuste fino específico para la tarea. El modelo aprendió "cuándo pensar": los tokens difíciles reciben razonamientos internos más largos; los fáciles casi ninguno.

Por qué los tres comparten una preocupación de seguridad

Los tres métodos utilizan la respuesta final como señal de gradiente. Un razonamiento que llega a la respuesta correcta a través de un razonamiento defectuoso — explotando un atajo, adivinando o utilizando un patrón no generalizable — se refuerza positivamente. En problemas dentro de la distribución (in-distribution), el atajo funciona. En problemas fuera de la distribución (out-of-distribution - OOD), se rompe silenciosamente.

El verificador de V-STaR mitiga esto al aprender a clasificar los razonamientos, pero el verificador se entrena en el mismo conjunto de etiquetas. Puede aprender a preferir un razonamiento erróneo bien formateado antes que una incertidumbre honesta. El diseño más seguro es combinar datos de estilo STaR con (a) modelos de recompensa supervisados por proceso (que recompensan los pasos intermedios, no solo las respuestas) y (b) una evaluación OOD reservada que rompa los atajos simples.

Comparación

Método	Señal de entrenamiento	Costo de inferencia	Desperdicio de datos	Modo de fallo conocido
STaR	conservar (razonamiento, respuesta) si es correcto	1x	descarta todos los razonamientos incorrectos	razonamientos de atajo
STaR + racionalización	anterior + reintentos con pistas de la respuesta correcta	1x	menor	los razonamientos racionalizados pueden ser inverosímiles
V-STaR	STaR + verificador DPO de ambas clases	Nx (best-of-N)	mínimo	el verificador puede reforzar un error confiado
Quiet-STaR	razonamiento por token + peso de mezcla	1.5-3x	mínimo	sigue siendo gradiente condicionado a la respuesta

Dónde se ubica esto en el stack de 2026

STaR es antiguo. Pero el patrón reaparece en todas partes en 2025-2026. El aprendizaje por refuerzo (RL) en problemas matemáticos verificables (DeepSeek-R1, Kimi-k1.5, o1) es la señal de gradiente condicionada a la respuesta de STaR, pero escalada. Los modelos de recompensa de proceso (Lightman et al., 2023; "Let's verify step by step" de OpenAI) son la alternativa supervisada por proceso. AlphaEvolve (Lección 3) es STaR para código, con un evaluador de programas en lugar de una etiqueta. Darwin Godel Machine (Lección 4) es STaR para el andamiaje (scaffolding) del propio agente.

Comprender STaR hace que todo esto encaje. Es el bucle de automejora mínimo viable.

Úsalo

code/main.py ejecuta una simulación del bucle STaR en una tarea aritmética simple. Puedes observar:

Cómo sube la precisión a lo largo de las rondas de bootstrap.
Cómo se infiltran los atajos: el simulador incluye una clase de razonamiento "perezoso" (lazy) que obtiene la respuesta correcta el 40% de las veces pero generaliza mal. Observa si STaR los conserva.
Cómo un verificador (estilo V-STaR) ayuda en la inferencia pero no puede depurar por completo los atajos introducidos durante el entrenamiento.

Envíalo

outputs/skill-star-loop-reviewer.md te ayuda a auditar un pipeline de razonamiento autoaprendido propuesto antes de realizar el entrenamiento.

Ejercicios

Ejecuta el simulador. Establece la frecuencia de atajos a cero y luego a 0.4. ¿Cuánto diverge la precisión final entre las dos ejecuciones, a pesar de que ambas alcanzan >90% en la distribución de entrenamiento?
Agrega una prueba OOD reservada al simulador. Extrae problemas de una distribución diferente y evalúa el modelo bootstrapped tanto en el conjunto in-distribution como en el OOD. Cuantifica la brecha.
Lee el artículo de Quiet-STaR (arXiv:2403.09629) Sección 3. Explica el token de "fin de pensamiento" (end-of-thought) y el cabezal de peso de mezcla (mixing-weight head) en tres oraciones cada uno.
Compara el filtro de conservación si es correcto de STaR con una alternativa supervisada por proceso que recompensa cada paso del razonamiento de forma independiente. Identifica la diferencia en el costo de etiquetado y la diferencia plausible de calidad.
Diseña una evaluación que detecte razonamientos de atajo en un modelo desplegado. No tiene que ser perfecta — tiene que romper los atajos más simples que un bucle STaR reforzaría.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
STaR	"Self-Taught Reasoner"	Ajuste fino sobre razonamientos generados por el modelo que conducen a respuestas correctas; repetir
Racionalización	"Reintento con pistas"	Inyectar la respuesta correcta y volver a solicitar un razonamiento en los problemas donde el modelo base falla
V-STaR	"Verifier STaR"	Entrenar mediante DPO un verificador tanto en razonamientos correctos como incorrectos, y usarlo para la selección en tiempo de inferencia
Quiet-STaR	"Razonamientos por token"	Generar pensamientos ocultos en cada posición de token; mezclar con la predicción de la línea de base
Gradiente condicionado a la respuesta	"Señal basada en el resultado"	El bucle de entrenamiento recompensa las respuestas finales, no los pasos de razonamiento
Modelo de recompensa de proceso	"Verificador a nivel de paso"	Modelo de recompensa entrenado en la corrección por paso, no en el resultado final — contrasta con STaR
Razonamiento de atajo	"Respuesta correcta, razonamiento incorrecto"	Un razonamiento que llega a la etiqueta mediante un patrón no generalizable; STaR conserva estos

Lecturas Adicionales

Zelikman et al. (2022). STaR: Bootstrapping Reasoning With Reasoning — el artículo original.
Hosseini et al. (2024). V-STaR: Training Verifiers for Self-Taught Reasoners — agrega un verificador DPO para la selección en el tiempo de inferencia.
Zelikman et al. (2024). Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking — razonamientos internos por token.
Lightman et al. (2023). Let's Verify Step by Step — modelos de recompensa de proceso, la señal de gradiente alternativa.
DeepSeek-R1 paper (arXiv:2501.12948) — RL en tareas verificables, STaR escalado al entrenamiento de frontera.