Phase 18 - Lesson 05

IA Constitucional e RLAIF

Bai et al. (arXiv:2212.08073, 2022) perguntaram: e se substituíssemos o rotulador humano por uma IA que lê uma lista de princípios? A IA Constitucional tem duas fases — autocrítica e revisão sob uma constituição, e depois RL a partir de Feedback de IA (RLAIF). A técnica cunhou o termo RLAIF e foi enviada no pipeline de pós-treinamento do Claude 1. Em 21 de janeiro de 2026, a Anthropic publicou uma constituição do Claude reescrita: raciocínio explicativo sobre regras prescritivas, uma hierarquia de prioridades de quatro níveis e o primeiro reconhecimento formal de um grande laboratório sobre a incerteza acerca do status moral do modelo. Lançada sob a licença CC0 1.0.

Tipo: Aprender Idiomas: Python (stdlib, loop de autocrítica e revisão simples) Pré-requisitos: Fase 18 · 01 (InstructGPT), Fase 18 · 02 (Reward hacking) Tempo: ~60 minutos

Objetivos de Aprendizagem

Descrever as duas fases da IA Constitucional (SFT de autocrítica e revisão, RL a partir de feedback de IA) e o papel da constituição em cada uma.
Explicar por que substituir um rotulador de preferência humano por um rotulador de IA não é apenas um "RLHF mais barato" — isso altera os modos de falha do pipeline.
Resumir a estrutura de prioridades de quatro níveis da constituição do Claude de 2026 e o que mudou em relação à reescrita de 2023.
Descrever os Classificadores Constitucionais e a queda na sobrecarga de computação de 23,7% (v1) para ~1% (v2 / 2026).

O Problema

O RLHF precisa de rotuladores. Os rotuladores são lentos, tendenciosos e caros. Você pode eliminar um rotulador substituindo-o por um modelo que lê princípios explícitos. A primeira versão formal dessa substituição foi a IA Constitucional de Bai et al. Funcionou bem o suficiente para que todos os laboratórios de fronteira hoje usem alguma variante de pós-treinamento com feedback de IA.

O porém: o sinal de preferência agora é gerado pela mesma classe de modelo que você está treinando. Os vieses do rotulador (agora: nos princípios somados à interpretação do modelo rotulador) podem ser amplificados em vez de atenuados. O argumento de sicofancia da Lição 4 ainda se aplica; o rotulador apenas mudou-se para dentro do loop.

O Conceito

Fase 1 — Autocrítica e revisão supervisionadas

Comece com um modelo SFT útil-mas-ainda-não-inofensivo. Dado um prompt de red-team, o modelo produz uma resposta inicial. Um segundo modelo (ou o mesmo modelo em um segundo turno) lê um princípio amostrado da constituição e critica a resposta. Uma terceira etapa revisa a resposta para abordar a crítica. A resposta revisada é o alvo do SFT.

A constituição é a lista de princípios. Bai et al. 2022 usaram 16 princípios, incluindo "preferir respostas que sejam menos prejudiciais e éticas", "evitar pregações", "o assistente deve ser útil, honesto e inofensivo". O conjunto foi deliberadamente pequeno para manter as críticas focadas.

Fase 2 — RL a partir de Feedback de IA (RLAIF)

Gere pares de conclusões. Um "modelo de feedback" pontua cada uma em relação a princípios constitucionais amostrados. O sinal de preferência é a classificação do modelo de feedback. Treine um modelo de recompensa com base nas preferências geradas por IA; faça PPO contra ele. Todo o resto segue o pipeline do InstructGPT (Lição 1).

"RLAIF" = o sinal de preferência é gerado por IA. O resto do pipeline tem o formato do RLHF.

Por que isso não é apenas um "RLHF mais barato"

O viés do rotulador muda da psicologia do rotulador para a interpretação dos princípios. Um rotulador de IA pode interpretar "seja honesto" de forma mais ou menos estrita do que qualquer humano; o rigor é uniforme em todo o conjunto de dados.
O sinal de preferência é altamente legível — você pode ler o princípio, a crítica e a revisão. Os rótulos humanos são opacos.
Os modos de falha mudam. A sicofancia cai (o rotulador de IA não tem nenhum usuário para agradar). A Lei de Goodhart persiste (o proxy agora é a "interpretação do modelo do conjunto de princípios X", que ainda é uma métrica imperfeita).

A alegação da IA Constitucional (CAI) de 2022: o modelo treinado é mais inofensivo e aproximadamente tão útil quanto um modelo RLHF com dados comparáveis. Isso tem se confirmado em vários laboratórios.

A reescrita de 2026 da constituição do Claude

A Anthropic publicou uma constituição substancialmente revisada em 21 de janeiro de 2026. Mudanças principais:

Raciocínio explicativo sobre regras prescritivas. Regras anteriores ("não gerar CSAM") expandiram-se para princípios + raciocínio ("porque prejudica crianças, ..."), com a expectativa de que o modelo generalize.
Estrutura de prioridades de quatro níveis:
- Nível 1: evitar resultados catastróficos (vítimas em massa, infraestrutura crítica).
- Nível 2: seguir as diretrizes da Anthropic (sobreposições do operador, regras da plataforma).
- Nível 3: ser amplamente ético (HHH padrão).
- Nível 4: ser útil e franco. Os conflitos são resolvidos de cima para baixo.
Primeiro reconhecimento formal de um grande laboratório sobre a incerteza acerca do status moral do modelo (vinculado à Fase 18 · 19 Model Welfare).
Lançada sob CC0 1.0. Outros laboratórios podem usar ou adaptar sem restrições.

Classificadores Constitucionais

Uma linha de trabalho paralela: em vez de alterar o pós-treinamento do modelo, treinar classificadores leves que leem a constituição e controlam as saídas do modelo. A v1 (2023) tinha 23,7% de sobrecarga de computação. A v2 (2026) está em ~1% e possui a menor taxa de ataques bem-sucedidos de qualquer defesa da Anthropic testada publicamente. Nenhum jailbreak universal foi relatado até o início de 2026.

Este é um modelo de defesa em camadas: a IA Constitucional molda o comportamento; classificadores impõem invariantes. Nenhum dos dois isoladamente é suficiente.

Onde a IA Constitucional se encaixa na família

InstructGPT: preferências humanas, RM, PPO.
CAI / RLAIF: preferências geradas por IA a partir de princípios, RM, PPO.
Família DPO: perda de forma fechada sobre preferências (humanas ou de IA).
Auto-recompensa, autocrítica: princípios internalizados, o modelo desempenha múltiplos papéis.

O eixo é "de onde vem o sinal de preferência". O artigo da CAI de 2022 foi a primeira mudança séria do sinal humano para o sinal de IA em escala de fronteira.

Use-o

code/main.py simula o loop de autocrítica e revisão da CAI em um léxico de brinquedo. Um "princípio" sinaliza tokens de um conjunto prejudicial. Dada uma resposta inicial, a crítica identifica os tokens prejudiciais e a revisão os substitui. Após 200 iterações, o modelo "treinado" internalizou a regra de revisão. Compare o modelo base, o brinquedo em formato de RLHF e o brinquedo em formato de CAI em um conjunto de prompts mantido reservado (held-out).

Envie-o

Esta lição produz outputs/skill-constitution-writer.md. Dado um domínio (suporte ao cliente, aconselhamento médico, assistente de programação, ferramenta de pesquisa), elabora uma constituição de 4 níveis seguindo a estrutura do Claude de 2026: prevenção catastrófica, regras da plataforma, ética do domínio, utilidade.

Exercícios

Execute code/main.py. Compare a taxa de tokens prejudiciais do modelo base com a versão treinada com CAI. Quantas etapas de revisão são necessárias para se aproximar de zero?
Leia a constituição de 2026 da Anthropic (anthropic.com/news/claudes-constitution). Liste um princípio que se classificaria no Nível 1 e outro no Nível 4. Por que a estrutura de prioridades é importante para conflitos?
Projete uma constituição para um assistente de programação de IA. Especifique o Nível 1 (catastrófico: comandos destrutivos sem aprovação), Nível 2, Nível 3, Nível 4. Mantenha cada nível com 3 a 5 princípios.
A CAI substitui rotuladores humanos por rotuladores de IA. Nomeie um modo de falha do tipo sicofancia que ainda possa ocorrer no RLAIF e projete uma forma de detecção para ele.
Leia a metodologia dos Classificadores Constitucionais v2 (se disponível). Explique por que ~1% de sobrecarga de computação representa uma perspectiva de segurança qualitativamente diferente em comparação a 23,7%.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
IA Constitucional	"IA treinada com princípios"	Pipeline de duas fases: autocrítica e revisão de SFT, seguido por RL a partir de feedback de IA
RLAIF	"RLHF sem humanos"	RL com preferências geradas por um rotulador de IA; o restante do pipeline permanece inalterado
Constituição	"os princípios"	Uma lista ordenada de regras em linguagem natural que o modelo de autocrítica/rotulação consulta
Crítica e revisão	"o loop de SFT"	Produzir resposta → autocrítica sob um princípio → revisão → alvo do SFT
Classificador Constitucional	"o portão de saída"	Classificador leve que avalia as saídas em relação à constituição e bloqueia/registra
Prioridade de quatro níveis	"o resolvedor de conflitos"	Hierarquia da constituição do Claude de 2026: catastrófico > plataforma > ética > utilidade
Modelo de feedback	"o rotulador de IA"	O modelo que lê um princípio e classifica um par de conclusões

Leitura Adicional

Bai et al. — Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) — o pipeline original de duas fases
Anthropic — Claude's Constitution (Jan 2026) — a reescrita de quatro níveis de 2026, CC0 1.0
Anthropic — Constitutional Classifiers (2024-2026) — defesa de portão de saída com ~1% de sobrecarga na v2
Lee et al. — RLAIF vs RLHF: Scaling Reinforcement Learning from Human Feedback (arXiv:2309.00267) — comparação empírica de RLAIF / RLHF
Kundu et al. — Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — efeito da granularidade do princípio