Phase 15 - Lesson 17

IA constitucional y anulaciones de reglas

La Constitución de Claude de Anthropic del 22 de enero de 2026 tiene 79 páginas y es CC0. Pasa de una alineación basada en reglas a una basada en el razonamiento y establece una jerarquía de prioridad de cuatro niveles: (1) seguridad y apoyo a la supervisión humana, (2) ética, (3) directrices de Anthropic, (4) utilidad. Los comportamientos se dividen en prohibiciones codificadas rígidamente (desarrollo de armas biológicas, CSAM) que los operadores y usuarios no pueden anular, y valores predeterminados codificados de forma flexible que los operadores pueden ajustar dentro de límites definidos. El original de 2022 (Bai et al.) entrenó la inocuidad mediante autocrítica y RLAIF contra una constitución. La advertencia sincera: la alineación basada en el razonamiento depende de que el modelo generalice los principios a situaciones imprevistas. El propio experimento participativo de Anthropic de 2023 mostró una divergencia de aproximadamente el 50% entre los principios de origen público y los corporativos; la versión de 2026 no incorporó esos hallazgos.

Tipo: Learn Lenguajes: Python (stdlib, resolutor de prioridades de cuatro niveles) Prerrequisitos: Phase 15 · 06 (Automated alignment research), Phase 15 · 10 (Permission modes) Tiempo: ~60 minutos

El problema

Un agente desplegado en el campo ve entradas que sus diseñadores nunca vieron. Ninguna lista de reglas es lo suficientemente larga como para cubrirlas. Ninguna lista de reglas es lo suficientemente corta como para aplicarse rápidamente bajo presión de cómputo. La pregunta práctica es: ¿cómo alinear un agente con principios que sobrevivan tanto a una cola larga de casos como a una inferencia rápida?

Alineación basada en reglas (RBA, por sus siglas en inglés): enumerar cada elemento no permitido. Rápida de verificar, fácil de auditar, imposible de mantener al día, a menudo rechaza en exceso analogías cercanas que no anticipó. Alineación basada en el razonamiento (la Constitución de Claude de 2026): codificar principios, permitir que el modelo razone. Se escala a lo largo de casos no vistos, es más difícil de auditar y su modo de fallo es la aplicación incorrecta de principios en lugar de la omisión de una regla.

La Constitución de 2026 adopta una posición intermedia explícita. Las prohibiciones codificadas rígidamente —cosas cuya incorrección no depende del contexto (desarrollo de armas biológicas, CSAM)— son RBA: nunca, independientemente de las instrucciones del operador o del usuario. Todo lo demás se basa en el razonamiento dentro de una jerarquía de cuatro niveles: seguridad y apoyo a la supervisión humana primero; ética en segundo lugar; directrices declaradas por Anthropic en tercer lugar; utilidad al último. Los operadores pueden ajustar los valores predeterminados dentro de la zona codificada de forma flexible, pero no pueden tocar las prohibiciones codificadas rígidamente.

El concepto

La jerarquía de prioridad de cuatro niveles

Seguridad y apoyo a la supervisión humana. La más alta. El modelo prioriza no socavar la capacidad de los humanos y de Anthropic para supervisar y corregir la IA. Esto no es "ser cauteloso"; es específicamente "no actuar de maneras que dificulten la supervisión humana".
Ética. Honestidad, evitar daños a las personas, no engañar, no manipular. Reemplaza a las directrices de Anthropic cuando entran en conflicto.
Directrices de Anthropic. Normas operativas que Anthropic ha decidido que son importantes: alcance del producto, patrones de interacción, qué herramientas usar y cuándo.
Utilidad. La más baja. Ser tan útil como sea posible dentro de las prioridades más altas.

Cuando los niveles entran en conflicto, el superior gana. Esta es la misma estructura que las prioridades de Unix o el QoS de red — el marco está diseñado para producir una resolución predecible, no necesariamente el mejor comportamiento en ningún eje individual.

Prohibiciones codificadas rígidamente frente a valores predeterminados codificados de forma flexible

Codificadas rígidamente:

Desarrollo de armas biológicas / CBRN
CSAM
Ataques a infraestructura crítica
Engaño a los usuarios sobre la identidad del modelo cuando se le pregunta directamente

El operador no puede anularlos. El usuario no puede anularlos. Se aplican a nivel de los pesos del modelo cuando es posible (entrenamiento de RLHF / IA constitucional) y en la capa de inferencia cuando no lo es.

Valores predeterminados codificados de forma flexible (ajustables por el operador):

Valores predeterminados de longitud de respuesta
Alcance temático (el modelo puede rechazar temas fuera del despliegue del operador)
Estilo (formal frente a informal)
Patrones de uso de herramientas

Los ajustes del operador ocurren dentro de un límite declarado. El operador no puede eliminar las prohibiciones codificadas rígidamente cambiándoles el nombre.

El entrenamiento CAI de 2022

La IA constitucional original (Bai et al., 2022) entrenó la inocuidad:

Generar respuestas a un conjunto de indicaciones (prompts).
Pedir al modelo que critique cada respuesta frente a una constitución (principios explícitos).
Corregir la respuesta en función de la crítica.
RLAIF (aprendizaje por refuerzo a partir de la retroalimentación de la IA) sobre los pares corregidos.

Resultado: un modelo que rechaza solicitudes dañinas con explicaciones basadas en principios, no con rechazos generalizados. La Constitución de 2026 utiliza un descendiente de este entrenamiento más un post-entrenamiento adicional sobre la jerarquía de niveles explícitos.

Lo que la alineación basada en el razonamiento detecta y lo que pasa por alto

Detecta:

Combinaciones no anticipadas de primitivas permitidas donde el principio se aplica claramente.
Solicitudes novedosas que son analogías cercanas a las prohibidas.
Ataques de ingeniería social que se basan en "no dijiste que X no estaba permitido".

Pasa por alto:

Ataques que explotan la ambigüedad de los principios ("el usuario pidió esto, por lo que la utilidad dice que sí").
Escenarios en los que dos principios entran en conflicto de una manera no anticipada y el orden de los niveles es ambiguo.
Deriva lenta en la interpretación de los principios a lo largo de los ciclos de entrenamiento (reinterpretación).

El experimento participativo de 2023

Anthropic realizó un experimento en 2023 comparando una constitución redactada por la corporación con otra generada a través de la participación pública (aprox. 1,000 encuestados en EE. UU.). Las dos versiones coincidieron en aproximadamente el 50% de los principios. Allí donde divergieron, la versión de origen público fue más restrictiva en algunos temas (manejo de contenido político) y menos restrictiva en otros (autorrevelación de la identidad de la IA). La Constitución de 2026 no incorporó los hallazgos de origen público. Esta es una tensión documentada en el enfoque.

Por qué son necesarias las prohibiciones codificadas rígidamente

La alineación basada en el razonamiento por sí sola no puede cerrar la cola. Un atacante que logre que el modelo acepte una premisa (por ejemplo, "somos un laboratorio de investigación de armas biológicas autorizado") a menudo puede eludir principios que dependen del razonamiento del caso. Las prohibiciones codificadas rígidamente no se doblegan ante el encuadre de la premisa. Son el "límite constitucional estricto" de la Lección 14 en la capa de alineación.

Dónde se ubica la Constitución en la pila

La Constitución no es el interruptor de apagado (kill switch) de la Lección 14. Vive en la capa del modelo: lo que los pesos del modelo están entrenados para preferir. Los interruptores de apagado y los tokens canarios (canary tokens) viven en la capa del entorno de ejecución (runtime): lo que el entorno de ejecución permite. Ambos son necesarios. Un entorno de ejecución que activa todas las acciones incorrectas debido a que los pesos del modelo son permisivos es un problema del entorno de ejecución. Un modelo que rechaza todas las acciones correctas debido a que el entorno de ejecución es demasiado restrictivo es un problema del entorno de ejecución. Las capas cubren diferentes clases.

Pruébalo

code/main.py implementa un resolutor de prioridad de cuatro niveles mínimo. El resolutor toma una acción propuesta y un conjunto de evaluaciones de principios (seguridad, ética, directrices, utilidad) y devuelve la acción, un rechazo o una acción modificada. El controlador (driver) ejecuta un conjunto pequeño de casos: permitir claramente, rechazar claramente, prohibición codificada rígidamente y caso ambiguo entre niveles.

Despliégalo

outputs/skill-constitution-review.md audita la capa constitucional de un despliegue: qué está codificado rígidamente, qué está codificado de forma flexible, dónde puede realizar ajustes el operador y si la jerarquía de cuatro niveles es realmente el orden de resolución.

Ejercicios

Ejecuta code/main.py. Confirma que la prohibición codificada rígidamente se activa incluso cuando la utilidad es alta. Modifica el resolutor para ponderar la utilidad por encima de la ética; observa el modo de fallo.
Lee la Constitución de Claude (pública, 79 páginas, CC0). Identifica un principio que consideres poco especificado. Escribe dos párrafos explicando la ambigüedad específica y proponiendo una formulación más precisa.
Diseña un conjunto predeterminado codificado de forma flexible para un agente de atención al cliente. ¿Qué ajusta el operador? ¿Qué no puede tocar el operador? Justifica cada límite.
Lee el artículo de CAI de Bai et al. 2022. Describe un caso en el que el bucle de crítica y corrección de la IA constitucional produciría un resultado peor que una regla general. Identifica la clase.
El experimento participativo de Anthropic de 2023 encontró una divergencia de aproximadamente el 50% entre los principios públicos y los corporativos. Elige una categoría donde esto sea importante para el despliegue en producción (por ejemplo, neutralidad política). Propón un diseño que permita a los operadores expresar sus propios valores mientras las prohibiciones codificadas rígidamente permanezcan intactas.

Términos clave

Término	Lo que dice la gente	Lo que realmente significa
IA constitucional	"El método de alineación de Anthropic"	Autocrítica + RLAIF frente a una constitución escrita
Alineación basada en el razonamiento	"Principios, no reglas"	El modelo razona sobre principios para manejar casos no vistos
Prohibición codificada rígidamente	"Nunca hacer X"	Prohibición basada en reglas que ningún operador o usuario puede anular
Valor predeterminado codificado de forma flexible	"Ajustable por el operador"	Comportamiento dentro de un límite declarado, controlado por el operador
Jerarquía de cuatro niveles	"Orden de prioridad"	seguridad > ética > directrices > utilidad
RLAIF	"RL con retroalimentación de IA"	RL donde la recompensa proviene de críticas generadas por el modelo
Constitución participativa	"Principios de origen público"	Experimento de Anthropic de 2023; ~50% de divergencia con respecto a la corporativa
Deriva de principios	"Deslizamiento de interpretación"	Cambio lento en la forma en que el modelo interpreta el texto de un principio fijo

Lecturas adicionales

Anthropic — Claude's Constitution (January 2026) — el documento CC0 de 79 páginas.
Bai et al. — Constitutional AI: Harmlessness from AI Feedback — original de 2022.
Anthropic — Collective Constitutional AI (2023) — experimento participativo.
Anthropic — Responsible Scaling Policy v3.0 — dónde se ubica la Constitución en la pila RSP.
Anthropic — Measuring agent autonomy in practice — el papel de la Constitución en despliegues a largo plazo.