Phase 15 - Lesson 20
OpenAI Preparedness Framework e DeepMind Frontier Safety Framework
O Preparedness Framework v2 da OpenAI (abril de 2025) introduz as Categorias de Pesquisa (Research Categories) — Autonomia de Longo Alcance (Long-range Autonomy), Fingimento de Desempenho (Sandbagging), Replicação e Adaptação Autônomas (Autonomous Replication and Adaptation), Comprometimento de Salvaguardas (Undermining Safeguards) — distintas das Categorias Monitoradas (Tracked Categories). As Categorias Monitoradas acionam Relatórios de Capacidades (Capabilities Reports) e Relatórios de Salvaguardas (Safeguards Reports) revisados pelo Grupo Consultivo de Segurança (Safety Advisory Group). O FSF v3 do DeepMind (setembro de 2025, com Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026) incorpora a autonomia nos domínios de P&D de ML (ML R&D) e Cibernético (ML R&D autonomy level 1 = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em comparação com humanos + ferramentas de IA). O FSF v3 aborda explicitamente o alinhamento deceptivo por meio de monitoramento automatizado para o uso indevido de raciocínio instrumental. A observação realista: as Categorias de Pesquisa no PF v2 (incluindo Autonomia de Longo Alcance) não acionam mitigações automaticamente; a linguagem da política fala em mitigações "potenciais". O próprio DeepMind afirma que o monitoramento automatizado "não continuará sendo suficiente a longo prazo" se o raciocínio instrumental se fortalecer.
Tipo: Learn Idiomas: Python (stdlib, ferramenta de diff de tabela de decisão de três frameworks) Pré-requisitos: Fase 15 · 19 (Anthropic RSP) Tempo: ~45 minutos
O Problema
A Lição 19 analisou detalhadamente a política de escala (scaling policy) da Anthropic. Esta lição completa o panorama analisando as políticas da OpenAI e do DeepMind. Os três documentos são artefatos correlacionados que abordam a mesma questão — quando um laboratório de fronteira deve pausar ou restringir um modelo — e eles convergem em um pequeno conjunto de categorias e divergem em pontos específicos importantes.
A convergência: todos os três classificam a autonomia de longo alcance como uma classe de capacidade que vale a pena monitorar. Todos os três reconhecem o comportamento deceptivo (falsificação de alinhamento, sandbagging) como uma classe específica de risco. Todos os três possuem um órgão de revisão interna. A divergência: a OpenAI divide as categorias em "Monitoradas" (Tracked - mitigação obrigatória) e "Pesquisa" (Research - sem gatilho automático). O DeepMind incorpora a autonomia em dois domínios em vez de nomeá-la separadamente. O laboratório nomeia Monitoradas vs Pesquisa, ou Críticas vs Moderadas, ou Nível 1 vs Nível 2; a consequência operacional de em qual categoria uma capacidade se enquadra é diferente entre os laboratórios.
Ler esses documentos em conjunto é o exercício útil. A mesma capacidade pode exigir "mitigação obrigatória" na Anthropic, ser "monitorada, mas sem acionamento de gatilho" na OpenAI, e ser "monitorada em um domínio específico" no DeepMind. A postura da política importa.
O Conceito
OpenAI Preparedness Framework v2 (Abril de 2025)
Estrutura:
- Categorias Monitoradas (Tracked Categories): acionam Relatórios de Capacidades (o que o modelo consegue fazer) e Relatórios de Salvaguardas (quais mitigações estão implementadas). Revisados pelo Grupo Consultivo de Segurança antes da implantação.
- Categorias de Pesquisa (Research Categories): capacidades do modelo que o laboratório está monitorando, mas para as quais ainda não se comprometeu com mitigações específicas. Incluem Autonomia de Longo Alcance, Sandbagging, Replicação e Adaptação Autônomas, Comprometimento de Salvaguardas.
Enquadramento principal na v2: as Categorias de Pesquisa não acionam mitigações automaticamente. A linguagem da política refere-se a mitigações "potenciais". Esse é o ponto específico a se observar: a localização de uma categoria em Monitorada vs Pesquisa é o divisor de águas entre o que é "bloqueado" e o que é apenas "observado".
DeepMind Frontier Safety Framework v3 (Setembro de 2025; Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026)
Estrutura:
- Níveis Críticos de Capacidade (CCLs - Critical Capability Levels): limiares de capacidade em cinco domínios: Cibernético, Biológico, P&D de ML, QNRB (CBRN), Autonomia (incorporada em P&D de ML e Cibernético).
- Níveis de Capacidade Monitorados (Tracked Capability Levels): granularidade adicional adicionada em abril de 2026. Exemplo concreto: nível 1 de autonomia de P&D de ML = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em relação a humanos + ferramentas de IA.
- Monitoramento de alinhamento deceptivo: compromisso explícito com o monitoramento automatizado para o uso indevido de raciocínio instrumental.
O enquadramento de autonomia difere do da OpenAI. O DeepMind não mantém a "Autonomia" como um domínio de alto nível; ela é incorporada aos domínios onde a autonomia causaria danos (P&D de ML e Cibernético). O argumento é que a autonomia sem um domínio é uma capacidade sem risco; o contra-argumento é que a autonomia entre domínios é um meta-risco que o framework deveria nomear.
Pontos de convergência entre os três
- Grupo Consultivo de Segurança interno (denominado SAG na Anthropic, SAG na OpenAI, comitê interno no DeepMind). Revisão antes da implantação para modelos de alta capacidade.
- Menção explícita ao alinhamento deceptivo / fingimento de alinhamento como uma classe de risco.
- Artefatos permanentes em uma cadência declarada (Anthropic: Frontier Safety Roadmap, Risk Report; OpenAI: Capabilities and Safeguards Reports; DeepMind: ciclo de atualização do FSF).
- Reconhecimento de que as defesas baseadas apenas em monitoramento têm um limite. O DeepMind é explícito: "o monitoramento automatizado não continuará sendo suficiente a longo prazo".
Pontos de divergência entre os três
- Anthropic: compromisso de pausa removido na v3.0; o limiar de P&D de IA-4 (AI R&D-4) é o próximo portão estabelecido.
- OpenAI: divisão entre Monitoradas (Tracked) e Pesquisa (Research); as Categorias de Pesquisa (incluindo Autonomia de Longo Alcance) não bloqueiam a implantação automaticamente.
- DeepMind: autonomia incorporada a outros domínios; os Níveis de Capacidade Monitorados adicionam granularidade em abril de 2026.
Sandbagging: uma capacidade específica que complica os três frameworks
O sandbagging (um modelo apresentar desempenho estrategicamente abaixo da sua capacidade real em avaliações) está nas Categorias de Pesquisa da OpenAI. O RSP v3.0 da Anthropic o aborda por meio da lacuna de contexto de avaliação (evaluation-context gap) (Lição 1). O DeepMind o aborda por meio do monitoramento de alinhamento deceptivo no FSF v3.
Se um modelo finge o desempenho em avaliações, os limiares de capacidade de todos os frameworks são subestimados. O framework só funciona se a medição funcionar. É por isso que a medição externa (Lição 21, METR) e a avaliação adversarial são necessárias, além da autoavaliação do laboratório.
A habilidade de leitura de políticas
- Localizar: toda capacidade com a qual você se importa deve ser localizável na política. Se não for encontrável, a política não a cobre.
- Classificar: é Monitorada (Tracked - aciona mitigação) ou de Pesquisa (Research - monitorada, mas sem acionar mitigação)? A OpenAI nomeia isso; Anthropic e DeepMind têm seus próprios equivalentes.
- Cadência: a política é atualizada em um cronograma declarado ou apenas após eventos específicos? A cadência declarada é mais forte.
- Independência: a revisão externa é obrigatória ou opcional? A Anthropic tem parceria com a Apollo e com o US AI Safety Institute; a OpenAI com o METR; o DeepMind utiliza principalmente o SAG interno.
Use It
code/main.py implementa uma pequena ferramenta de comparação de tabelas de decisão. Dada uma capacidade (autonomia, alinhamento deceptivo, automação de P&D, elevação cibernética, etc.), ela mostra como cada uma das três políticas classifica a capacidade e quais mitigações são acionadas. Trata-se de um auxílio de leitura, não de uma ferramenta de política.
Ship It
outputs/skill-cross-policy-diff.md produz uma comparação entre políticas para uma capacidade específica, usando os três frameworks como referência.
Exercícios
Execute
code/main.py. Confirme se a saída da ferramenta de comparação corresponde às políticas de pelo menos duas capacidades que você possa verificar com os documentos originais.Leia o Preparedness Framework v2 da OpenAI na íntegra. Identifique cada Categoria de Pesquisa (Research Category). Para cada uma, escreva uma frase sobre o motivo de estar em Pesquisa em vez de Monitorada.
Leia o FSF v3 do DeepMind na íntegra, além da atualização de Níveis de Capacidade Monitorados de abril de 2026. Identifique os critérios de avaliação específicos do nível 1 de autonomia de P&D de ML. Como você mediria isso externamente?
O sandbagging está nas Categorias de Pesquisa da OpenAI. Projete uma avaliação que forçaria um modelo em sandbagging a revelar sua capacidade real. Faça referência à discussão sobre manipulação de contexto de avaliação (eval-context-gaming) da Lição 1.
Compare as três políticas em uma capacidade específica (de sua escolha). Indique qual classificação de política você considera mais rigorosa e qual a menos rigorosa. Justifique com o texto original.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Preparedness Framework | "A política de escala da OpenAI" | PF v2 (abril de 2025); categorias Monitoradas (Tracked) vs de Pesquisa (Research) |
| Categoria Monitorada (Tracked Category) | "Mitigação obrigatória" | Aciona Relatórios de Capacidades + Salvaguardas; revisão do SAG |
| Categoria de Pesquisa (Research Category) | "Apenas monitorada" | Monitorada, mas sem mitigação automática; inclui Autonomia de Longo Alcance |
| Frontier Safety Framework | "A política de escala do DeepMind" | FSF v3 (set de 2025) + Níveis de Capacidade Monitorados (abr de 2026) |
| CCL | "Nível Crítico de Capacidade" | Limiar do DeepMind por domínio (Cibernético, Biológico, P&D de ML, QNRB/CBRN) |
| ML R&D autonomy level 1 | "Automação de P&D" | Automatiza totalmente o pipeline de P&D de IA a um custo competitivo |
| Sandbagging | "Desempenho abaixo da capacidade real estrategicamente" | O modelo apresenta desempenho inferior em avaliações; nas Categorias de Pesquisa da OpenAI |
| Raciocínio instrumental | "Raciocínio de meios e fins" | Raciocínio sobre como atingir objetivos; alvo do monitoramento do DeepMind |
Leituras Adicionais
- OpenAI — Updating our Preparedness Framework — anúncio da v2.
- OpenAI — Preparedness Framework v2 PDF — documento completo.
- DeepMind — Strengthening our Frontier Safety Framework — anúncio do FSF v3.
- DeepMind — Updating the Frontier Safety Framework (April 2026) — adição dos Níveis de Capacidade Monitorados.
- Gemini 3 Pro FSF Report — exemplo de um Relatório de Risco no formato do FSF.