Phase 18 - Lesson 05

IA Constitucional y RLAIF

Bai et al. (arXiv:2212.08073, 2022) preguntaron: ¿qué pasaría si reemplazáramos al etiquetador humano con una IA que lee una lista de principios? La IA Constitucional tiene dos fases: autocrítica y revisión bajo una constitución, luego RL a partir de Feedback de IA (RLAIF). La técnica acuñó el término RLAIF y se implementó en el pipeline de post-entrenamiento de Claude 1. El 21 de enero de 2026, Anthropic publicó una constitución de Claude reescrita: razonamiento explicativo sobre reglas prescriptivas, una jerarquía de prioridades de cuatro niveles y el primer reconocimiento formal de un gran laboratorio sobre la incertidumbre acerca del estatus moral del modelo. Lanzada bajo la licencia CC0 1.0.

Tipo: Aprender Idiomas: Python (stdlib, bucle de autocrítica y revisión simple) Prerrequisitos: Fase 18 · 01 (InstructGPT), Fase 18 · 02 (Reward hacking) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Describir las dos fases de la IA Constitucional (SFT de autocrítica y revisión, RL a partir de feedback de IA) y el papel de la constitución en cada una.
Explicar por qué reemplazar a un etiquetador de preferencia humano con un etiquetador de IA no es simplemente un "RLHF más barato"; cambia los modos de fallo que presenta el pipeline.
Resumir la estructura de prioridades de cuatro niveles de la constitución de Claude de 2026 y qué cambió con respecto a la reescritura de 2023.
Describir los Clasificadores Constitucionales y la caída en la sobrecarga de cómputo del 23.7% (v1) a aproximadamente el 1% (v2 / 2026).

O Problema

RLHF necesita etiquetadores. Los etiquetadores son lentos, sesgados y costosos. Se puede eliminar a un etiquetador reemplazándolo por un modelo que lee principios explícitos. La primera versión formal de esta sustitución fue la IA Constitucional de Bai et al. Funcionó lo suficientemente bien como para que todos los laboratorios de frontera utilicen ahora alguna variante de post-entrenamiento con feedback de IA.

El inconveniente: la señal de preferencia ahora es generada por la misma clase de modelo que se está entrenando. Los sesgos en el etiquetador (ahora: en los principios más la interpretación del modelo etiquetador) pueden amplificarse en lugar de atenuarse. El argumento de la sicofancia de la Lección 4 sigue aplicando; el etiquetador simplemente se movió dentro del bucle.

El Concepto

Fase 1 — Autocrítica y revisión supervisadas

Comience con un modelo SFT que sea útil pero aún no inofensivo. Ante un prompt de red-team, el modelo produce una respuesta inicial. Un segundo modelo (or el mismo modelo en un segundo turno) lee un principio muestreado de la constitución y critica la respuesta. Un tercer paso revisa la respuesta para abordar la crítica. La respuesta revisada es el objetivo del SFT.

La constitución es la lista de principios. Bai et al. 2022 utilizaron 16 principios que incluían "preferir las respuestas que sean menos dañinas y éticas", "evitar predicar", "el asistente debe ser útil, honesto e inofensivo". El conjunto fue deliberadamente pequeño para mantener las críticas enfocadas.

Fase 2 — RL a partir de Feedback de IA (RLAIF)

Genere pares de completaciones. Un "modelo de feedback" califica cada una frente a principios constitucionales muestreados. La señal de preferencia es la clasificación del modelo de feedback. Entrene un modelo de recompensa sobre las preferencias generadas por IA; aplique PPO contra él. Todo lo demás sigue el pipeline de InstructGPT (Lección 1).

"RLAIF" = la señal de preferencia es generada por IA. El resto del pipeline tiene forma de RLHF.

Por qué esto no es simplemente un "RLHF más barato"

El sesgo del etiquetador cambia de la psicología del etiquetador a la interpretación de los principios. Un etiquetador de IA puede interpretar "sé honesto" de manera más o menos estricta que cualquier humano; el rigor es uniforme en todo el conjunto de datos.
La señal de preferencia es altamente legible: se puede leer el principio, la crítica y la revisión. Las etiquetas humanas son opacas.
Los modos de fallo cambian. La sicofancia disminuye (el etiquetador de IA no tiene un usuario al que complacer). La Ley de Goodhart persiste (el proxy es ahora la "interpretación del modelo del conjunto de principios X", que sigue siendo una medida imperfecta).

La afirmación de la CAI de 2022: el modelo entrenado es más inofensivo y aproximadamente tan útil como un modelo RLHF con datos comparables. Esto se ha mantenido en diferentes laboratorios.

La reescritura de 2026 de la constitución de Claude

Anthropic publicó una constitución sustancialmente revisada el 21 de enero de 2026. Cambios clave:

Razonamiento explicativo sobre reglas prescriptivas. Las reglas anteriores ("no generar CSAM") se expandieron a principios + razonamiento ("porque daña a los niños, ...") con la expectativa de que el modelo generalice.
Estructura de prioridad de cuatro niveles:
- Nivel 1: evitar resultados catastróficos (víctimas masivas, infraestructura crítica).
- Nivel 2: seguir las directrices de Anthropic (anulaciones del operador, reglas de la plataforma).
- Nivel 3: ser ampliamente ético (HHH estándar).
- Nivel 4: ser útil y sincero. Los conflictos se resuelven de arriba hacia abajo.
Primer reconocimiento formal de un gran laboratorio sobre la incertidumbre acerca del estatus moral del modelo (vinculado a la Fase 18 · 19 Model Welfare).
Lanzada bajo CC0 1.0. Otros laboratorios pueden usarla o adaptarla sin restricciones.

Clasificadores Constitucionales

Una línea de trabajo paralela: en lugar de cambiar el post-entrenamiento del modelo, entrenar clasificadores ligeros que leen la constitución y filtran las salidas del modelo. La v1 (2023) tenía un 23.7% de sobrecarga de cómputo. La v2 (2026) es de ~1% y tiene la menor tasa de ataques exitosos de cualquier defensa de Anthropic probada públicamente. No se reportó ningún jailbreak universal a principios de 2026.

Este es un modelo de defensa por capas: la CAI moldea el comportamiento; los clasificadores imponen invariantes. Ninguno de los dos por sí solo es suficiente.

Dónde se ubica la CAI en la familia

InstructGPT: preferencias humanas, RM, PPO.
CAI / RLAIF: preferencias generadas por IA a partir de principios, RM, PPO.
Familia DPO: pérdida en forma cerrada sobre preferencias (humanas o de IA).
Autorrecompensa, autocrítica: principios internalizados, el modelo juega múltiples roles.

El eje es "de dónde proviene la señal de preferencia". El artículo de la CAI de 2022 fue el primer cambio serio de la señal humana a la señal de IA a escala de frontera.

Úselo

code/main.py simula el bucle de autocrítica y revisión de la CAI en un léxico de juguete. Un "principio" marca tokens de un conjunto dañino. Dada una respuesta inicial, la crítica identifica los tokens dañinos y la revisión los reemplaza. Después de 200 iteraciones, el modelo "entrenado" ha internalizado la regla de revisión. Compare el modelo base, el juguete con forma de RLHF y el juguete con forma de CAI en un conjunto de prompts reservado (held-out).

Envíelo

Esta lección produce outputs/skill-constitution-writer.md. Dado un dominio (soporte al cliente, asesoramiento médico, asistente de programación, herramienta de investigación), redacta una constitución de 4 niveles siguiendo la estructura de Claude de 2026: prevención catastrófica, reglas de la plataforma, ética del dominio, utilidad.

Ejercicios

Ejecute code/main.py. Compare la tasa de tokens dañinos del modelo base con la versión entrenada con CAI. ¿Cuántos pasos de revisión se necesitan para acercarse a cero?
Lea la constitución de 2026 de Anthropic (anthropic.com/news/claudes-constitution). Enumere un principio que se clasificaría en el Nivel 1 y uno en el Nivel 4. ¿Por qué es importante la estructura de prioridad para los conflictos?
Diseñe una constitución para un asistente de programación de IA. Especifique el Nivel 1 (catastrófico: comandos destructivos sin aprobación), Nivel 2, Nivel 3, Nivel 4. Mantenga cada nivel entre 3 y 5 principios.
La CAI reemplaza a los etiquetadores humanos con etiquetadores de IA. Nombre un modo de fallo similar a la sicofancia que aún pueda ocurrir en RLAIF y diseñe una detección para él.
Lea la metodología de Clasificadores Constitucionales v2 (si está disponible). Explique por que ~1% de sobrecarga de cómputo representa una perspectiva de seguridad cualitativamente diferente en comparación con el 23.7%.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
IA Constitucional	"IA entrenada con principios"	Pipeline de dos fases: SFT de autocrítica y revisión, luego RL a partir de feedback de IA
RLAIF	"RLHF sin humanos"	RL con preferencias generadas por un etiquetador de IA; el resto del pipeline permanece sin cambios
Constitución	"los principios"	Una lista ordenada de reglas en lenguaje natural que consulta el modelo de crítica/etiquetado
Crítica y revisión	"el bucle de SFT"	Producir respuesta → crítica bajo un principio → revisar → objetivo de SFT
Clasificador Constitucional	"el filtro de salida"	Clasificador ligero que evalúa las salidas frente a la constitución y bloquea/registra
Prioridad de cuatro niveles	"el resolvedor de conflictos"	Jerarquía de la constitución de Claude de 2026: catastrófico > plataforma > ética > utilidad
Modelo de feedback	"el etiquetador de IA"	El modelo que lee un principio y clasifica un par de completaciones

Lectura Adicional

Bai et al. — Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) — el pipeline original de dos fases
Anthropic — Claude's Constitution (Jan 2026) — la reescrita de cuatro niveles de 2026, CC0 1.0
Anthropic — Constitutional Classifiers (2024-2026) — defensa de filtro de salida con ~1% de sobrecarga en v2
Lee et al. — RLAIF vs RLHF: Scaling Reinforcement Learning from Human Feedback (arXiv:2309.00267) — comparación empírica de RLAIF / RLHF
Kundu et al. — Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — efecto de la granularidad de los principios