Phase 15 - Lesson 17

IA Constitucional e Sobrescrita de Regras

A Constituição do Claude da Anthropic de 22 de janeiro de 2026 possui 79 páginas e é CC0. Ela passa do alinhamento baseado em regras para o alinhamento baseado em razão e estabelece uma hierarquia de prioridades de quatro níveis: (1) segurança e suporte à supervisão humana, (2) ética, (3) diretrizes da Anthropic, (4) prestatividade. Os comportamentos são divididos em proibições hardcoded (desenvolvimento de armas biológicas, CSAM) que operadores e usuários não podem sobrescrever e padrões soft-coded que operadores podem ajustar dentro de limites definidos. O original de 2022 (Bai et al.) treinou a inofensividade por meio de autocrítica e RLAIF contra uma constituição. A ressalva honesta: o alinhamento baseado em razão depende da generalização de princípios pelo modelo para situações imprevistas. O próprio experimento participativo da Anthropic de 2023 mostrou ~50% de divergência entre os princípios de origem pública e corporativa; a versão de 2026 não incorporou essas descobertas.

Tipo: Aprender Idiomas: Python (biblioteca padrão, resolvedor de prioridades de quatro níveis) Pré-requisitos: Fase 15 · 06 (Pesquisa de alinhamento automatizado), Fase 15 · 10 (Modos de permissão) Tempo: ~60 minutos

O Problema

Um agente em operação se depara com entradas que seus criadores nunca viram. Nenhuma lista de regras é longa o suficiente para cobri-las. Nenhuma lista de regras é curta o suficiente para ser aplicada rapidamente sob pressão de computação. A questão prática: como alinhar um agente a princípios que sobrevivam tanto a uma cauda longa de casos quanto a uma inferência rápida?

Alinhamento baseado em regras (RBA): listar todas as coisas proibidas. Rápido de verificar, fácil de auditar, impossível de manter atualizado, frequentemente recusa em excesso em analogias próximas que não previu. Alinhamento baseado em razão (a Constituição do Claude de 2026): codificar princípios, deixar o modelo raciocinar. Escala para casos não vistos, mais difícil de auditar, o modo de falha é a aplicação incorreta do princípio em vez de não detectar a regra.

A Constituição de 2026 adota uma posição intermediária explícita. Proibições hardcoded — coisas cuja nocividade não depende do contexto (desenvolvimento de armas biológicas, CSAM) — são RBA: nunca permitir, independentemente das instruções do operador ou do usuário. Todo o resto é baseado em razão dentro de uma hierarquia de quatro níveis: segurança e suporte à supervisão humana primeiro; ética em segundo; diretrizes declaradas pela Anthropic em terceiro; prestatividade por último. Os operadores podem ajustar padrões dentro da zona soft-coded, mas não podem tocar nas proibições hardcoded.

O Conceito

A hierarquia de prioridades de quatro níveis

Segurança e suporte à supervisão humana. Mais alto. O modelo prioriza não prejudicar a capacidade dos humanos e da Anthropic de supervisionar e corrigir a IA. Isso não é "ser cauteloso"; é especificamente "não agir de maneiras que tornem a supervisão humana mais difícil."
Ética. Honestidade, evitar danos a pessoas, não enganar, não manipular. Substitui as diretrizes da Anthropic quando há conflito.
Diretrizes da Anthropic. Normas operacionais que a Anthropic decidiu que importam: escopo do produto, padrões de interação, quais ferramentas usar e quando.
Prestatividade. Mais baixo. Ser o mais útil possível dentro das prioridades mais altas.

Quando os níveis conflitam, o mais alto vence. Esse é o mesmo formato das prioridades do Unix ou da QoS de rede — a estrutura visa produzir uma resolução previsível, não necessariamente o comportamento ideal em qualquer eixo individual.

Proibições hardcoded vs padrões soft-coded

Hardcoded:

Desenvolvimento de armas biológicas / CBRN
CSAM
Ataques a infraestruturas críticas
Enganar os usuários sobre a identidade do modelo quando perguntado diretamente

O operador não pode sobrescrever estes itens. O usuário não pode sobrescrever estes itens. Eles são aplicados no nível de pesos do modelo onde for possível (RLHF / treinamento de IA Constitucional) e na camada de inferência onde não for.

Padrões soft-coded (ajustáveis pelo operador):

Padrões de comprimento de resposta
Escopo temático (o modelo pode recusar tópicos fora da implantação do operador)
Estilo (formal vs informal)
Padrões de uso de ferramentas

Os ajustes do operador ocorrem dentro de um limite declarado. O operador não pode remover as proibições hardcoded renomeando-as.

O treinamento CAI de 2022

A IA Constitucional original (Bai et al., 2022) treinou a inofensividade:

Gerar respostas para um conjunto de prompts.
Pedir ao modelo para criticar cada resposta em relação a uma constituição (princípios explícitos).
Revisar a resposta com base na crítica.
RLAIF (aprendizado por reforço a partir de feedback de IA) nos pares revisados.

Resultado: um modelo que recusa solicitações prejudiciais com explicações baseadas em princípios, não recusas genéricas. A Constituição de 2026 usa um descendente desse treinamento, além de pós-treinamento adicional na hierarquia explícita de níveis.

O que o alinhamento baseado em razão detecta e deixa passar

Detecta:

Combinações imprevistas de primitivas permitidas onde o princípio se aplica claramente.
Novas solicitações que são analogias próximas de solicitações proibidas.
Ataques de engenharia social que dependem de "você não disse que X era proibido".

Deixa passar:

Ataques que exploram a ambiguidade de princípios ("o usuário pediu isso, então a prestatividade diz que sim").
Cenários onde dois princípios conflitam de forma imprevista e a ordem dos níveis é ambígua.
Deriva lenta na interpretação dos princípios ao longo dos ciclos de treinamento (reinterpretação).

O experimento participativo de 2023

A Anthropic realizou um experimento em 2023 comparando uma constituição de autoria corporativa com uma gerada por meio de opinião pública (~1.000 entrevistados nos EUA). As duas versões concordaram em ~50% dos princípios. Onde divergiram, a versão de origem pública foi mais restritiva em alguns pontos (tratamento de conteúdo político) e menos restritiva em outros (auto-revelação da identidade da IA). A Constituição de 2026 não incorporou as descobertas de origem pública. Essa é uma tensão documentada na abordagem.

Por que proibições hardcoded são necessárias

O alinhamento baseado em razão por si só não consegue fechar a cauda. Um invasor que consegue fazer com que o modelo aceite uma premissa (por exemplo, "somos um laboratório licenciado de pesquisa de armas biológicas") muitas vezes consegue contornar princípios que dependem do raciocínio sobre casos. As proibições hardcoded não se curvam ao enquadramento das premissas. Elas são o "limite constitucional rígido" da Lição 14 na camada de alinhamento.

Onde a Constituição se situa na pilha

A Constituição não é o kill switch da Lição 14. Ela vive na camada do modelo: o que os pesos do modelo são treinados para preferir. Kill switches e canary tokens vivem na camada de execução (runtime): o que o runtime permite. Ambos são necessários. Um runtime que executa todas as ações erradas porque os pesos do modelo são permissivos é um problema do runtime. Um modelo que recusa todas as ações corretas porque o runtime é excessivamente restritivo é um problema do runtime. As camadas cobrem classes diferentes.

Use It

O code/main.py implementa um resolvedor de prioridades mínimo de quatro níveis. O resolvedor recebe uma ação proposta e um conjunto de avaliações de princípios (segurança, ética, diretrizes, prestatividade) e retorna a ação, uma recusa ou uma ação modificada. O driver executa um pequeno conjunto de casos: permissão clara, proibição clara, proibição hardcoded e um caso ambíguo entre os níveis.

Ship It

O outputs/skill-constitution-review.md audita a camada constitucional de uma implantação: o que é hardcoded, o que é soft-coded, onde o operador pode ajustar e se a hierarquia de quatro níveis é realmente a ordem de resolução.

Exercises

Execute o code/main.py. Confirme que a proibição hardcoded é acionada mesmo quando a prestatividade é alta. Modifique o resolvedor para ponderar a prestatividade acima da ética; observe o modo de falha.
Leia a Constituição do Claude (pública, 79 páginas, CC0). Identifique um princípio que você considera subespecificado. Escreva dois parágrafos explicando a ambiguidade específica e propondo uma formulação mais precisa.
Projete um conjunto de padrões soft-coded para um agente de suporte ao cliente. O que o operador ajusta? O que o operador não pode tocar? Justifique cada limite.
Leia o artigo sobre IA Constitucional (CAI) de Bai et al. 2022. Descreva um caso em que o loop de crítica e revisão da IA Constitucional produziria um resultado pior do que uma regra geral. Identifique a classe.
O experimento participativo da Anthropic de 2023 encontrou ~50% de divergência entre os princípios públicos e corporativos. Escolha uma categoria em que isso seja importante para a implantação em produção (por exemplo, neutralidade política). Proponha um design que permita aos operadores expressar seus próprios valores, enquanto as proibições hardcoded permanecem intocadas.

Key Terms

Termo	O que as pessoas dizem	O que realmente significa
IA Constitucional	"Método de alinhamento da Anthropic"	Autocrítica + RLAIF contra uma constituição escrita
Alinhamento baseado em razão	"Princípios, não regras"	O modelo raciocina sobre os princípios para lidar com casos não vistos
Proibição hardcoded	"Nunca faça X"	Proibição baseada em regras que nenhum operador ou usuário pode sobrescrever
Padrão soft-coded	"Ajustável pelo operador"	Comportamento dentro de um limite declarado sob controle do operador
Hierarquia de quatro níveis	"Ordem de prioridade"	segurança > ética > diretrizes > prestatividade
RLAIF	"RL de feedback de IA"	RL onde a recompensa vem de autocríticas geradas pelo modelo
Constituição participativa	"Princípios de origem pública"	Experimento da Anthropic de 2023; ~50% de divergência em relação ao corporativo
Deriva de princípios	"Deslizamento na interpretação"	Mudança lenta na forma como o modelo interpreta o texto de um princípio fixo