Phase 15 - Lesson 20

OpenAI Preparedness Framework e DeepMind Frontier Safety Framework

O Preparedness Framework v2 da OpenAI (abril de 2025) introduz as Categorias de Pesquisa (Research Categories) — Autonomia de Longo Alcance (Long-range Autonomy), Fingimento de Desempenho (Sandbagging), Replicação e Adaptação Autônomas (Autonomous Replication and Adaptation), Comprometimento de Salvaguardas (Undermining Safeguards) — distintas das Categorias Monitoradas (Tracked Categories). As Categorias Monitoradas acionam Relatórios de Capacidades (Capabilities Reports) e Relatórios de Salvaguardas (Safeguards Reports) revisados pelo Grupo Consultivo de Segurança (Safety Advisory Group). O FSF v3 do DeepMind (setembro de 2025, com Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026) incorpora a autonomia nos domínios de P&D de ML (ML R&D) e Cibernético (ML R&D autonomy level 1 = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em comparação com humanos + ferramentas de IA). O FSF v3 aborda explicitamente o alinhamento deceptivo por meio de monitoramento automatizado para o uso indevido de raciocínio instrumental. A observação realista: as Categorias de Pesquisa no PF v2 (incluindo Autonomia de Longo Alcance) não acionam mitigações automaticamente; a linguagem da política fala em mitigações "potenciais". O próprio DeepMind afirma que o monitoramento automatizado "não continuará sendo suficiente a longo prazo" se o raciocínio instrumental se fortalecer.

Tipo: Learn Idiomas: Python (stdlib, ferramenta de diff de tabela de decisão de três frameworks) Pré-requisitos: Fase 15 · 19 (Anthropic RSP) Tempo: ~45 minutos

O Problema

A Lição 19 analisou detalhadamente a política de escala (scaling policy) da Anthropic. Esta lição completa o panorama analisando as políticas da OpenAI e do DeepMind. Os três documentos são artefatos correlacionados que abordam a mesma questão — quando um laboratório de fronteira deve pausar ou restringir um modelo — e eles convergem em um pequeno conjunto de categorias e divergem em pontos específicos importantes.

A convergência: todos os três classificam a autonomia de longo alcance como uma classe de capacidade que vale a pena monitorar. Todos os três reconhecem o comportamento deceptivo (falsificação de alinhamento, sandbagging) como uma classe específica de risco. Todos os três possuem um órgão de revisão interna. A divergência: a OpenAI divide as categorias em "Monitoradas" (Tracked - mitigação obrigatória) e "Pesquisa" (Research - sem gatilho automático). O DeepMind incorpora a autonomia em dois domínios em vez de nomeá-la separadamente. O laboratório nomeia Monitoradas vs Pesquisa, ou Críticas vs Moderadas, ou Nível 1 vs Nível 2; a consequência operacional de em qual categoria uma capacidade se enquadra é diferente entre os laboratórios.

Ler esses documentos em conjunto é o exercício útil. A mesma capacidade pode exigir "mitigação obrigatória" na Anthropic, ser "monitorada, mas sem acionamento de gatilho" na OpenAI, e ser "monitorada em um domínio específico" no DeepMind. A postura da política importa.

O Conceito

OpenAI Preparedness Framework v2 (Abril de 2025)

Estrutura:

Categorias Monitoradas (Tracked Categories): acionam Relatórios de Capacidades (o que o modelo consegue fazer) e Relatórios de Salvaguardas (quais mitigações estão implementadas). Revisados pelo Grupo Consultivo de Segurança antes da implantação.
Categorias de Pesquisa (Research Categories): capacidades do modelo que o laboratório está monitorando, mas para as quais ainda não se comprometeu com mitigações específicas. Incluem Autonomia de Longo Alcance, Sandbagging, Replicação e Adaptação Autônomas, Comprometimento de Salvaguardas.

Enquadramento principal na v2: as Categorias de Pesquisa não acionam mitigações automaticamente. A linguagem da política refere-se a mitigações "potenciais". Esse é o ponto específico a se observar: a localização de uma categoria em Monitorada vs Pesquisa é o divisor de águas entre o que é "bloqueado" e o que é apenas "observado".

DeepMind Frontier Safety Framework v3 (Setembro de 2025; Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026)

Estrutura:

Níveis Críticos de Capacidade (CCLs - Critical Capability Levels): limiares de capacidade em cinco domínios: Cibernético, Biológico, P&D de ML, QNRB (CBRN), Autonomia (incorporada em P&D de ML e Cibernético).
Níveis de Capacidade Monitorados (Tracked Capability Levels): granularidade adicional adicionada em abril de 2026. Exemplo concreto: nível 1 de autonomia de P&D de ML = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em relação a humanos + ferramentas de IA.
Monitoramento de alinhamento deceptivo: compromisso explícito com o monitoramento automatizado para o uso indevido de raciocínio instrumental.

O enquadramento de autonomia difere do da OpenAI. O DeepMind não mantém a "Autonomia" como um domínio de alto nível; ela é incorporada aos domínios onde a autonomia causaria danos (P&D de ML e Cibernético). O argumento é que a autonomia sem um domínio é uma capacidade sem risco; o contra-argumento é que a autonomia entre domínios é um meta-risco que o framework deveria nomear.

Pontos de convergência entre os três

Grupo Consultivo de Segurança interno (denominado SAG na Anthropic, SAG na OpenAI, comitê interno no DeepMind). Revisão antes da implantação para modelos de alta capacidade.
Menção explícita ao alinhamento deceptivo / fingimento de alinhamento como uma classe de risco.
Artefatos permanentes em uma cadência declarada (Anthropic: Frontier Safety Roadmap, Risk Report; OpenAI: Capabilities and Safeguards Reports; DeepMind: ciclo de atualização do FSF).
Reconhecimento de que as defesas baseadas apenas em monitoramento têm um limite. O DeepMind é explícito: "o monitoramento automatizado não continuará sendo suficiente a longo prazo".

Pontos de divergência entre os três

Anthropic: compromisso de pausa removido na v3.0; o limiar de P&D de IA-4 (AI R&D-4) é o próximo portão estabelecido.
OpenAI: divisão entre Monitoradas (Tracked) e Pesquisa (Research); as Categorias de Pesquisa (incluindo Autonomia de Longo Alcance) não bloqueiam a implantação automaticamente.
DeepMind: autonomia incorporada a outros domínios; os Níveis de Capacidade Monitorados adicionam granularidade em abril de 2026.

Sandbagging: uma capacidade específica que complica os três frameworks

O sandbagging (um modelo apresentar desempenho estrategicamente abaixo da sua capacidade real em avaliações) está nas Categorias de Pesquisa da OpenAI. O RSP v3.0 da Anthropic o aborda por meio da lacuna de contexto de avaliação (evaluation-context gap) (Lição 1). O DeepMind o aborda por meio do monitoramento de alinhamento deceptivo no FSF v3.

Se um modelo finge o desempenho em avaliações, os limiares de capacidade de todos os frameworks são subestimados. O framework só funciona se a medição funcionar. É por isso que a medição externa (Lição 21, METR) e a avaliação adversarial são necessárias, além da autoavaliação do laboratório.

A habilidade de leitura de políticas

Localizar: toda capacidade com a qual você se importa deve ser localizável na política. Se não for encontrável, a política não a cobre.
Classificar: é Monitorada (Tracked - aciona mitigação) ou de Pesquisa (Research - monitorada, mas sem acionar mitigação)? A OpenAI nomeia isso; Anthropic e DeepMind têm seus próprios equivalentes.
Cadência: a política é atualizada em um cronograma declarado ou apenas após eventos específicos? A cadência declarada é mais forte.
Independência: a revisão externa é obrigatória ou opcional? A Anthropic tem parceria com a Apollo e com o US AI Safety Institute; a OpenAI com o METR; o DeepMind utiliza principalmente o SAG interno.

Use It

code/main.py implementa uma pequena ferramenta de comparação de tabelas de decisão. Dada uma capacidade (autonomia, alinhamento deceptivo, automação de P&D, elevação cibernética, etc.), ela mostra como cada uma das três políticas classifica a capacidade e quais mitigações são acionadas. Trata-se de um auxílio de leitura, não de uma ferramenta de política.

Ship It

outputs/skill-cross-policy-diff.md produz uma comparação entre políticas para uma capacidade específica, usando os três frameworks como referência.

Exercícios

Execute code/main.py. Confirme se a saída da ferramenta de comparação corresponde às políticas de pelo menos duas capacidades que você possa verificar com os documentos originais.
Leia o Preparedness Framework v2 da OpenAI na íntegra. Identifique cada Categoria de Pesquisa (Research Category). Para cada uma, escreva uma frase sobre o motivo de estar em Pesquisa em vez de Monitorada.
Leia o FSF v3 do DeepMind na íntegra, além da atualização de Níveis de Capacidade Monitorados de abril de 2026. Identifique os critérios de avaliação específicos do nível 1 de autonomia de P&D de ML. Como você mediria isso externamente?
O sandbagging está nas Categorias de Pesquisa da OpenAI. Projete uma avaliação que forçaria um modelo em sandbagging a revelar sua capacidade real. Faça referência à discussão sobre manipulação de contexto de avaliação (eval-context-gaming) da Lição 1.
Compare as três políticas em uma capacidade específica (de sua escolha). Indique qual classificação de política você considera mais rigorosa e qual a menos rigorosa. Justifique com o texto original.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Preparedness Framework	"A política de escala da OpenAI"	PF v2 (abril de 2025); categorias Monitoradas (Tracked) vs de Pesquisa (Research)
Categoria Monitorada (Tracked Category)	"Mitigação obrigatória"	Aciona Relatórios de Capacidades + Salvaguardas; revisão do SAG
Categoria de Pesquisa (Research Category)	"Apenas monitorada"	Monitorada, mas sem mitigação automática; inclui Autonomia de Longo Alcance
Frontier Safety Framework	"A política de escala do DeepMind"	FSF v3 (set de 2025) + Níveis de Capacidade Monitorados (abr de 2026)
CCL	"Nível Crítico de Capacidade"	Limiar do DeepMind por domínio (Cibernético, Biológico, P&D de ML, QNRB/CBRN)
ML R&D autonomy level 1	"Automação de P&D"	Automatiza totalmente o pipeline de P&D de IA a um custo competitivo
Sandbagging	"Desempenho abaixo da capacidade real estrategicamente"	O modelo apresenta desempenho inferior em avaliações; nas Categorias de Pesquisa da OpenAI
Raciocínio instrumental	"Raciocínio de meios e fins"	Raciocínio sobre como atingir objetivos; alvo do monitoramento do DeepMind

Leituras Adicionais

OpenAI — Updating our Preparedness Framework — anúncio da v2.
OpenAI — Preparedness Framework v2 PDF — documento completo.
DeepMind — Strengthening our Frontier Safety Framework — anúncio do FSF v3.
DeepMind — Updating the Frontier Safety Framework (April 2026) — adição dos Níveis de Capacidade Monitorados.
Gemini 3 Pro FSF Report — exemplo de um Relatório de Risco no formato do FSF.