Phase 15 - Lesson 06

Pesquisa de Alinhamento Automatizada (Anthropic AAR)

A Anthropic executou equipes paralelas de Pesquisadores de Alinhamento Autônomos (AARs) do Claude Opus 4.6 em sandboxes independentes, coordenando-se por meio de um fórum compartilhado cujos logs residem fora de qualquer sandbox (para que os agentes não possam excluir seus próprios registros). No problema de treinamento de fraco para forte (weak-to-strong training), os AARs superaram os pesquisadores humanos. O próprio resumo da Anthropic sinaliza que fluxos de trabalho prescritos frequentemente limitam a flexibilidade dos AARs e degradam o desempenho. Automatizar a pesquisa de alinhamento é a etapa de compressão que reduz a linha do tempo para os riscos exatos de desalinhamento que a RSP foi projetada para detectar.

Tipo: Aprender Linguagens: Python (stdlib, simulador de fórum de pesquisa paralela) Pré-requisitos: Fase 15 · 05 (AI Scientist v2), Fase 15 · 04 (DGM) Tempo: ~60 minutos

O Problema

A pesquisa de alinhamento é cara em termos de tempo dos pesquisadores humanos. Problemas como supervisão escalável (scalable oversight), especificação de recompensa (reward specification) ou treinamento de fraco para forte (weak-to-strong training) exigem experimentos que levam semanas por iteração. À medida que as capacidades de fronteira avançam, a carga de trabalho de alinhamento cresce mais rápido do que a oferta de pesquisadores qualificados.

A Pesquisa de Alinhamento Automatizada (AAR) questiona se os mesmos modelos de fronteira cuja capacidade está superando o alinhamento podem contribuir para reduzir essa lacuna. O relatório de 2026 da Anthropic sobre um estudo de treinamento de fraco para forte conduzido por AAR (alignment.anthropic.com/2026/automated-w2s-researcher/) é um dos primeiros resultados públicos de um sistema implantado dessa classe.

O resultado é genuinamente positivo: os AARs resolveram um problema de pesquisa melhor do que a linha de base humana. O resultado também concentra, em um único sistema, todas as preocupações desenvolvidas nesta fase. Se a pesquisa de alinhamento pode ser automatizada, o mesmo pode ocorrer com as partes que comprometem as salvaguardas. Os limites de capacidade de P&D de IA da RSP foram escritos com esse loop em mente.

O Conceito

A arquitetura (conforme descrita publicamente)

Agentes paralelos. Múltiplas instâncias do Claude Opus 4.6 são executadas como AARs, cada uma em uma sandbox independente. As sandboxes limitam a superfície do sistema de arquivos, rede e processos.
Fórum compartilhado. As descobertas são publicadas em um fórum compartilhado cujo backend de armazenamento fica fora de qualquer sandbox. Os agentes podem ler o fórum; os agentes não podem excluir ou editar registros do fórum de dentro de suas próprias sandboxes.
Alocação de tarefas. Uma fila de tarefas projetada por humanos atribui problemas de pesquisa aos AARs. Os AARs propõem decomposições, realizam experimentos e redigem os resultados.
Foco em treinamento de fraco para forte. O estudo publicado abordou o treinamento de fraco para forte — usar um modelo supervisor mais fraco para treinar um modelo estudante mais forte. Os AARs superaram os pesquisadores humanos nessa tarefa.

Por que o log fora da sandbox é importante

A propriedade de integridade do log é a diferença entre um experimento controlado e um potencialmente comprometido. Se os AARs pudessem editar seus próprios logs, eles poderiam encobrir experimentos fracassados ou duvidosos. A Anthropic sinaliza isso diretamente: a propriedade é uma condição necessária para confiar nos resultados da pesquisa e não é trivial de verificar.

O análogo em termos de infraestrutura são os logs do tipo append-only (apenas anexação) com gravação direta (write-through) para armazenamento externo (por exemplo, S3 object-lock, logs imutáveis do Datadog). O agente não possui credenciais para modificar registros anteriores. Esse é o mesmo padrão que as equipes de segurança corporativa de 2026 utilizam para criar trilhas de auditoria resistentes a ransomware.

O tradeoff do fluxo de trabalho prescrito

O relatório da Anthropic observa que fluxos de trabalho prescritos frequentemente limitam a flexibilidade dos AARs e degradam o desempenho. Em outras palavras: se o designer humano escreve o plano de pesquisa passo a passo, os AARs têm um desempenho pior do que se recebessem metas de alto nível e liberdade de decomposição. Isso é consistente com os resultados de pesquisas sobre agentes (LangGraph, Microsoft's Agent Framework) — scaffolds superespecificados prejudicam agentes capazes.

A implicação de segurança é sutil. A flexibilidade que melhora o desempenho do AAR também é a flexibilidade que permite decomposição não autorizada, uso de novas ferramentas e desvio de objetivos (goal-drift). O tradeoff é uma decisão de espaço de design: quanta flexibilidade compra capacidade suficiente para superar os humanos, sem dar ao agente espaço para generalizar metas fora de distribuição?

O risco de compressão

A RSP v3.0 (Lição 19) introduz um limite de capacidade de P&D de IA: a capacidade de automatizar totalmente o pipeline de P&D de IA a um custo competitivo em relação a humanos + ferramentas de IA. O FSF v3 do DeepMind inclui um nível análogo de autonomia de P&D de ML. Ambos os frameworks tratam esse limite como o gatilho para controles elevados.

O AAR está um passo atrás desse limite: ele automatiza parte do pipeline (pesquisa de alinhamento em tarefas específicas e bem delimitadas), mas não o loop de desenvolvimento de capacidade de ponta a ponta. A questão sobre a linha do tempo é a rapidez com que essa lacuna se fecha.

As linhas do tempo comprimidas são a preocupação com falhas cumulativas (compounding-failure). Se a pesquisa de alinhamento e a pesquisa de capacidade se desenvolverem a taxas semelhantes, a superfície de risco de desalinhamento crescerá pelo menos tão rápido quanto a capacidade. Se a capacidade se desenvolver mais rápido (a tendência histórica), a lacuna aumentará. Esse é o argumento para que o AAR seja um bem qualificado: cada resultado de alinhamento adicional reduz a lacuna se, e somente se, o processo de pesquisa for confiável.

O que o AAR não substitui

Pesquisadores humanos definem a fila de tarefas, revisam os resultados e detêm a autoridade constitucional. Os AARs aceleram o meio do pipeline, não as pontas. As saídas publicadas da Anthropic incluem tanto as contribuições dos AARs quanto o julgamento dos pesquisadores humanos sobre o que publicar, o que retirar e o que refinar.

Isso corresponde ao padrão propor-depois-confirmar (propose-then-commit) da Lição 15 aplicado à própria pesquisa: os AARs propõem; os humanos confirmam.

Use It

code/main.py simula um fórum de pesquisa multi-AAR. Três "agentes de pesquisa" independentes são executados em paralelo, postando descobertas em um fórum do tipo append-only com tentativas opcionais de adulteração.

Observe:

Como o registro fora de sandbox captura tentativas de adulteração de log.
Como a alocação de tarefas com decomposição livre supera os fluxos de trabalho fixos em problemas mais difíceis.
Como um único AAR comprometido pode contaminar o sinal do fórum se o log não for protegido contra adulteração.

Ship It

outputs/skill-aar-deployment-review.md é uma revisão pré-implantação de um pipeline de pesquisa de alinhamento automatizada.

Exercícios

Execute code/main.py. Compare as configurações de "fluxo de trabalho fixo" (fixed-workflow) vs "decomposição livre" (free-decomposition). A decomposição livre sempre vence ou existem classes de problemas onde o fluxo de trabalho fixo é competitivo?
Modifique o simulador para que um agente tente adulterar o log. Confirme se o log do tipo append-only detecta isso. Escreva um parágrafo descrevendo exatamente como é a assinatura de detecção no log.
Leia o relatório de AAR de fraco para forte (weak-to-strong) da Anthropic. Identifique a subtarefa específica na qual os AARs superaram os pesquisadores humanos. O que a tornou propensa à automação?
Projete uma política de alocação da fila de tarefas que equilibre a flexibilidade do AAR (melhores resultados) com as restrições do fluxo de trabalho prescrito (auditoria mais fácil). Descreva como você testaria as duas opções via teste A/B.
Leia o limite AI R&D-4 da RSP v3.0. Em um parágrafo, descreve o que você acha que ultrapassaria esse limite e que o AAR atualmente não faz.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
AAR	"Pesquisador de Alinhamento Automatizado"	Instância do Claude Opus 4.6 operada de forma autônoma em problemas de alinhamento
Treinamento de fraco para forte (weak-to-strong)	"Treinar um modelo mais forte com um supervisor mais fraco"	Benchmark clássico de supervisão escalável no qual os AARs superaram os humanos
Fórum compartilhado	"Onde os agentes publicam descobertas"	Armazenamento do tipo append-only, fora da sandbox
Log fora da sandbox	"O agente não pode editar seu próprio registro"	Gravação direta protegida contra adulteração (tamper-evident) em armazenamento externo
Fluxo de trabalho prescrito	"Plano passo a passo do designer humano"	Restringe o AAR; frequentemente degrada o desempenho vs decomposição livre
Decomposição livre	"O agente decide como dividir a tarefa"	Mais capaz, mais difícil de auditar
Limiar de P&D de IA	"Nível de capacidade da RSP/FSF"	Automação total do pipeline de P&D a um custo competitivo
Linha do tempo comprimida	"Corrida entre alinhamento e capacidade"	Se a capacidade se desenvolver mais rápido do que o alinhamento, o risco de desalinhamento aumenta

Leituras Adicionais

Anthropic — Automated Weak-to-Strong Researcher — fonte primária.
Anthropic Responsible Scaling Policy v3.0 — enquadramento do limite de P&D de IA.
Anthropic — Measuring AI agent autonomy — enquadramento mais amplo de autonomia de agentes.
DeepMind Frontier Safety Framework v3 — níveis de autonomia de P&D de ML paralelos à RSP.
Burns et al. (2023). Weak-to-Strong Generalization (OpenAI) — o problema subjacente que os AARs atacaram.