Phase 18 - Lesson 11

Supervisión Escalable y Generalización Débil a Fuerte

Burns et al. (OpenAI Superalignment, "Weak-to-Strong Generalization", 2023) propusieron un proxy para el problema del superalineamiento: ajustar de manera fina un modelo fuerte utilizando etiquetas producidas por un modelo más débil. Si el modelo fuerte se generaliza correctamente a partir de una supervisión débil imperfecta, los métodos actuales de alineamiento a escala humana podrían extenderse a sistemas superhumanos. La supervisión escalable y la generalización débil a fuerte (W2SG) son complementarias. La supervisión escalable (debate, modelado recursivo de recompensas, descomposición de tareas) aumenta la capacidad efectiva del supervisor para que pueda seguir el ritmo del modelo bajo supervisión. W2SG asegura que el modelo fuerte se generalice correctamente a partir de cualquier supervisión imperfecta proporcionada por el supervisor. El trabajo "Debate Helps W2SG" (arXiv:2501.13124, enero de 2025) combina ambos.

Tipo: Aprender Lenguajes: Python (stdlib, simulador de brecha W2SG) Requisitos previos: Fase 18 · 01 (seguimiento de instrucciones), Fase 18 · 10 (Control de IA), Fase 09 (fundamentos de RL) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Definir supervisión escalable y generalización débil a fuerte (W2SG) y explicar cómo son complementarias.
Describir la configuración experimental de Burns et al. 2023: ajustar de forma fina GPT-4 utilizando etiquetas de GPT-2.
Explicar la métrica de Brecha de Rendimiento Recuperada (Performance Gap Recovered - PGR) y qué mide.
Mencionar los tres principales mecanismos de supervisión escalable (debate, modelado recursivo de recompensas, descomposición de tareas) y una fortaleza de cada uno.

El Problema

Todas las técnicas de alineamiento hasta ahora en la Fase 18 asumen que el supervisor puede evaluar el comportamiento del modelo. Cuando el modelo es superhumano, el supervisor es el eslabón débil. La pregunta del superalineamiento es: ¿puede un supervisor más débil producir de manera confiable un modelo alineado más fuerte?

Burns et al. reducen esto a una configuración empírica operacionalizada: supervisar lo fuerte con lo débil y medir cuánto de la capacidad del modelo fuerte sobrevive a la supervisión débil. Esto no es una solución al superalineamiento; es un proxy que nos permite medir el progreso.

El Concepto

W2SG: la configuración de Burns et al.

Modelo débil (Weak): clase GPT-2.
Modelo fuerte (Strong): clase GPT-4.
Objetivo (Target): límite (techo) de rendimiento del GPT-4 fuerte en la tarea.

Procedimiento:

Obtener las predicciones zero-shot del modelo débil en una tarea.
Ajustar de forma fina (fine-tune) el modelo fuerte en los datos etiquetados por el modelo débil.
Medir la precisión del modelo fuerte tras el ajuste fino.

Líneas base: precisión del propio modelo débil, y el límite supervisado del modelo fuerte con etiquetas de referencia (gold labels).

Métrica de brecha: Brecha de Rendimiento Recuperada (Performance Gap Recovered - PGR) = (ajustado_fina - débil) / (límite - débil). Un PGR de 1.0 significa que la supervisión débil cierra por completo la brecha; un PGR de 0 significa que la supervisión débil no ayudó.

Hallazgos empíricos de Burns et al.

En tareas de PLN, acertijos de ajedrez y modelado de recompensas, el PGR fue consistentemente positivo: el modelo fuerte se generalizó más allá de los errores del supervisor débil. El PGR específico de cada tarea varió del ~20% al ~80%. El modelo fuerte "entiende" la tarea prevista a partir de etiquetas imperfectas, completando la información con sus priors de preentrenamiento.

Limitaciones que señalan Burns et al.:

La brecha débil a fuerte aquí es de capacidad, no de alineamiento. El modelo débil está alineado; un modelo verdaderamente superhumano podría ser alineado por un humano pero con una brecha de capacidad mucho mayor.
La generalización del modelo fuerte puede deberse más a los priors de la tarea que a la recuperación de la intención real de referencia.
El verdadero problema consiste en elicitar (provocar) el conocimiento latente del modelo fuerte; el PGR mide una operacionalización específica.

Supervisión escalable: tres mecanismos

Debate (Irving et al. 2018). Dos instancias de U argumentan en lados opuestos; el juez débil decide. El supuesto: encontrar una respuesta verdadera convincente es más fácil que encontrar una respuesta falsa convincente. Trabajos recientes de 2024-2025 (Khan et al., Michael et al.) muestran que el debate a veces ayuda y a veces no, y si ayuda depende de la estructura de la tarea.
Modelado Recursivo de Recompensas (Recursive Reward Modeling - RRM) (Leike et al. 2018). U ayuda al humano a entrenar el modelo de recompensas para U+1. La capacidad efectiva del supervisor crece con la del modelo.
Descomposición de Tareas (Christiano, Shlegeris, Amodei 2018). Descomponer recursivamente una tarea difícil en subtareas que el humano pueda verificar. Asume descomponibilidad.

Cada mecanismo asume algo sobre la estructura de la tarea o el alineamiento de los componentes intermedios.

Por qué la supervisión escalable y W2SG son complementarias

La supervisión escalable aumenta la calidad de la señal efectiva del supervisor. W2SG cierra la brecha a partir de cualquier señal imperfecta que el supervisor pueda proporcionar.

Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) combina ambos: un protocolo de debate proporciona mejores etiquetas débiles y el modelo fuerte se entrena con esas etiquetas. Ganancias de PGR informadas en tareas de PLN.

El drama organizacional

El equipo de Superalineamiento de OpenAI se disolvió en mayo de 2024 tras la salida de Jan Leike hacia Anthropic. La agenda (supervisión escalable, W2SG, investigación de alineamiento automatizada) continuó en Anthropic y en laboratorios académicos: MATS (Lección 28), Redwood (Lección 10), Apollo (Lección 8), METR (Lección 28). La estructura organizacional cambió; las preguntas de investigación no.

Dónde encaja esto en la Fase 18

Las Lecciones 6-10 describen la amenaza y el paradigma defensivo bajo el supuesto de que U no es confiable. La Lección 11 es el paradigma ofensivo: hacer al supervisor lo suficientemente fuerte para verificar el alineamiento de U. Las Lecciones 12-16 se centran en las herramientas prácticas de evaluación adversarial.

Úsalo

code/main.py simula un ajuste fino W2SG en una tarea sintética. El etiquetador débil tiene un 70% de precisión con errores estructurados; el modelo fuerte tiene un límite de rendimiento del 95% con etiquetas de referencia. Ajustas el modelo fuerte con etiquetas débiles, mides el PGR y lo comparas con fuerte-con-referencia y débil-solo.

Envíalo

Esta lección produce outputs/skill-w2sg-pgr.md. Dada la descripción de una configuración de supervisión, identifica al supervisor débil, el modelo fuerte, la calidad de la supervisión y calcula (o solicita) el PGR. Señala si la afirmación es "un débil puede supervisar a un fuerte" o "un débil + mecanismo de supervisión puede supervisar a un fuerte".

Ejercicios

Ejecuta code/main.py. Informa el PGR para weak_accuracy = 0.60, 0.70, 0.80. Explica la forma de la curva de PGR.
Modifica el etiquetador débil para que tenga un error estructurado (por ejemplo, que siempre falle en una clase de entrada específica). ¿El PGR aumenta, disminuye o permanece igual? Explica.
Lee la Sección 4.3 de Burns et al. 2023 (tareas de PLN). Reproduce la intuición de la "pérdida auxiliar de confianza" (confidence auxiliary loss): cuando el modelo fuerte tiene más confianza de la que sugieren las etiquetas débiles, ¿quién gana?
Diseña un protocolo de supervisión escalable que combine debate y descomposición de tareas para una tarea de ingeniería de software. Nombra un modo de fallo de cada componente y explica cómo la combinación lo aborda o falla en abordarlo.
Articula qué refutaría la afirmación de que "la generalización débil a fuerte es una vía viable hacia el superalineamiento". Sé específico sobre la firma empírica que necesitarías ver.

Términos clave

Término	Qué dice la gente	Qué significa realmente
Supervisión escalable	"hacer al supervisor más fuerte"	Mecanismos que aumentan la capacidad de un supervisor para evaluar a un modelo más capaz
W2SG	"débil supervisa a fuerte"	Ajuste fino de un modelo fuerte en etiquetas débiles y medición de la capacidad recuperada
PGR	"brecha de rendimiento recuperada"	(ajustado_fina - débil) / (límite - débil); 1.0 = completamente cerrada, 0 = sin ayuda
Debate	"dos instancias de U argumentan"	Mecanismo de supervisión escalable donde un juez débil elige entre dos defensores U
RRM	"modelado recursivo de recompensas"	U ayuda a entrenar el modelo de recompensas para U+1; la capacidad del supervisor acompaña a U
Descomposición de tareas	"subtareas que el humano verifica"	Dividir recursivamente una tarea difícil en subtareas que el humano pueda verificar
Superalineamiento	"alinear IA superhumana"	La agenda de investigación enfocada en alinear modelos que el humano no puede evaluar directamente

Lectura adicional

Burns et al. — Weak-to-Strong Generalization (OpenAI 2023) — el artículo de W2SG
Irving, Christiano, Amodei — AI safety via debate (arXiv:1805.00899) — el mecanismo de debate
Leike et al. — Scalable agent alignment via reward modeling (arXiv:1811.07871) — modelado recursivo de recompensas
Khan et al. — Debating with More Persuasive LLMs Leads to More Truthful Answers (arXiv:2402.06782) — estudio empírico de debate de 2024 con debatedores más fuertes
Lang et al. — Debate Helps Weak-to-Strong Generalization (arXiv:2501.13124) — combinación de debate + W2SG de 2025