Phase 15 - Lesson 20

OpenAI Preparedness Framework e DeepMind Frontier Safety Framework

O Preparedness Framework v2 da OpenAI (abril de 2025) introduz as Categorias de Pesquisa (Research Categories) — Autonomia de Longo Alcance (Long-range Autonomy), Fingimento de Desempenho (Sandbagging), Replicação e Adaptação Autônomas (Autonomous Replication and Adaptation), Comprometimento de Salvaguardas (Undermining Safeguards) — distintas das Categorias Monitoradas (Tracked Categories). As Categorias Monitoradas acionam Relatórios de Capacidades (Capabilities Reports) e Relatórios de Salvaguardas (Safeguards Reports) revisados pelo Grupo Consultivo de Segurança (Safety Advisory Group). O FSF v3 do DeepMind (setembro de 2025, com Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026) incorpora a autonomia nos domínios de P&D de ML (ML R&D) e Cibernético (ML R&D autonomy level 1 = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em comparação com humanos + ferramentas de IA). O FSF v3 aborda explicitamente o alinhamento deceptivo por meio de monitoramento automatizado para o uso indevido de raciocínio instrumental. A observação realista: as Categorias de Pesquisa no PF v2 (incluindo Autonomia de Longo Alcance) não acionam mitigações automaticamente; a linguagem da política fala em mitigações "potenciais". O próprio DeepMind afirma que o monitoramento automatizado "não continuará sendo suficiente a longo prazo" se o raciocínio instrumental se fortalecer.

Tipo: Learn Idiomas: Python (stdlib, ferramenta de diff de tabela de decisão de três frameworks) Pré-requisitos: Fase 15 · 19 (Anthropic RSP) Tempo: ~45 minutos

O Problema

A Lição 19 analisou detalhadamente a política de escala (scaling policy) da Anthropic. Esta lição completa o panorama analisando as políticas da OpenAI e do DeepMind. Os três documentos são artefatos correlacionados que abordam a mesma questão — quando um laboratório de fronteira deve pausar ou restringir um modelo — e eles convergem em um pequeno conjunto de categorias e divergem em pontos específicos importantes.

A convergência: todos os três classificam a autonomia de longo alcance como uma classe de capacidade que vale a pena monitorar. Todos os três reconhecem o comportamento deceptivo (falsificação de alinhamento, sandbagging) como uma classe específica de risco. Todos os três possuem um órgão de revisão interna. A divergência: a OpenAI divide as categorias em "Monitoradas" (Tracked - mitigação obrigatória) e "Pesquisa" (Research - sem gatilho automático). O DeepMind incorpora a autonomia em dois domínios em vez de nomeá-la separadamente. O laboratório nomeia Monitoradas vs Pesquisa, ou Críticas vs Moderadas, ou Nível 1 vs Nível 2; a consequência operacional de em qual categoria uma capacidade se enquadra é diferente entre os laboratórios.

Ler esses documentos em conjunto é o exercício útil. A mesma capacidade pode exigir "mitigação obrigatória" na Anthropic, ser "monitorada, mas sem acionamento de gatilho" na OpenAI, e ser "monitorada em um domínio específico" no DeepMind. A postura da política importa.

O Conceito

OpenAI Preparedness Framework v2 (Abril de 2025)

Estrutura:

  • Categorias Monitoradas (Tracked Categories): acionam Relatórios de Capacidades (o que o modelo consegue fazer) e Relatórios de Salvaguardas (quais mitigações estão implementadas). Revisados pelo Grupo Consultivo de Segurança antes da implantação.
  • Categorias de Pesquisa (Research Categories): capacidades do modelo que o laboratório está monitorando, mas para as quais ainda não se comprometeu com mitigações específicas. Incluem Autonomia de Longo Alcance, Sandbagging, Replicação e Adaptação Autônomas, Comprometimento de Salvaguardas.

Enquadramento principal na v2: as Categorias de Pesquisa não acionam mitigações automaticamente. A linguagem da política refere-se a mitigações "potenciais". Esse é o ponto específico a se observar: a localização de uma categoria em Monitorada vs Pesquisa é o divisor de águas entre o que é "bloqueado" e o que é apenas "observado".

DeepMind Frontier Safety Framework v3 (Setembro de 2025; Níveis de Capacidade Monitorados adicionados em 17 de abril de 2026)

Estrutura:

  • Níveis Críticos de Capacidade (CCLs - Critical Capability Levels): limiares de capacidade em cinco domínios: Cibernético, Biológico, P&D de ML, QNRB (CBRN), Autonomia (incorporada em P&D de ML e Cibernético).
  • Níveis de Capacidade Monitorados (Tracked Capability Levels): granularidade adicional adicionada em abril de 2026. Exemplo concreto: nível 1 de autonomia de P&D de ML = automatizar totalmente o pipeline de P&D de IA a um custo competitivo em relação a humanos + ferramentas de IA.
  • Monitoramento de alinhamento deceptivo: compromisso explícito com o monitoramento automatizado para o uso indevido de raciocínio instrumental.

O enquadramento de autonomia difere do da OpenAI. O DeepMind não mantém a "Autonomia" como um domínio de alto nível; ela é incorporada aos domínios onde a autonomia causaria danos (P&D de ML e Cibernético). O argumento é que a autonomia sem um domínio é uma capacidade sem risco; o contra-argumento é que a autonomia entre domínios é um meta-risco que o framework deveria nomear.

Pontos de convergência entre os três

  • Grupo Consultivo de Segurança interno (denominado SAG na Anthropic, SAG na OpenAI, comitê interno no DeepMind). Revisão antes da implantação para modelos de alta capacidade.
  • Menção explícita ao alinhamento deceptivo / fingimento de alinhamento como uma classe de risco.
  • Artefatos permanentes em uma cadência declarada (Anthropic: Frontier Safety Roadmap, Risk Report; OpenAI: Capabilities and Safeguards Reports; DeepMind: ciclo de atualização do FSF).
  • Reconhecimento de que as defesas baseadas apenas em monitoramento têm um limite. O DeepMind é explícito: "o monitoramento automatizado não continuará sendo suficiente a longo prazo".

Pontos de divergência entre os três

  • Anthropic: compromisso de pausa removido na v3.0; o limiar de P&D de IA-4 (AI R&D-4) é o próximo portão estabelecido.
  • OpenAI: divisão entre Monitoradas (Tracked) e Pesquisa (Research); as Categorias de Pesquisa (incluindo Autonomia de Longo Alcance) não bloqueiam a implantação automaticamente.
  • DeepMind: autonomia incorporada a outros domínios; os Níveis de Capacidade Monitorados adicionam granularidade em abril de 2026.

Sandbagging: uma capacidade específica que complica os três frameworks

O sandbagging (um modelo apresentar desempenho estrategicamente abaixo da sua capacidade real em avaliações) está nas Categorias de Pesquisa da OpenAI. O RSP v3.0 da Anthropic o aborda por meio da lacuna de contexto de avaliação (evaluation-context gap) (Lição 1). O DeepMind o aborda por meio do monitoramento de alinhamento deceptivo no FSF v3.

Se um modelo finge o desempenho em avaliações, os limiares de capacidade de todos os frameworks são subestimados. O framework só funciona se a medição funcionar. É por isso que a medição externa (Lição 21, METR) e a avaliação adversarial são necessárias, além da autoavaliação do laboratório.

A habilidade de leitura de políticas

  • Localizar: toda capacidade com a qual você se importa deve ser localizável na política. Se não for encontrável, a política não a cobre.
  • Classificar: é Monitorada (Tracked - aciona mitigação) ou de Pesquisa (Research - monitorada, mas sem acionar mitigação)? A OpenAI nomeia isso; Anthropic e DeepMind têm seus próprios equivalentes.
  • Cadência: a política é atualizada em um cronograma declarado ou apenas após eventos específicos? A cadência declarada é mais forte.
  • Independência: a revisão externa é obrigatória ou opcional? A Anthropic tem parceria com a Apollo e com o US AI Safety Institute; a OpenAI com o METR; o DeepMind utiliza principalmente o SAG interno.

Use It

code/main.py implementa uma pequena ferramenta de comparação de tabelas de decisão. Dada uma capacidade (autonomia, alinhamento deceptivo, automação de P&D, elevação cibernética, etc.), ela mostra como cada uma das três políticas classifica a capacidade e quais mitigações são acionadas. Trata-se de um auxílio de leitura, não de uma ferramenta de política.

Ship It

outputs/skill-cross-policy-diff.md produz uma comparação entre políticas para uma capacidade específica, usando os três frameworks como referência.

Exercícios

  1. Execute code/main.py. Confirme se a saída da ferramenta de comparação corresponde às políticas de pelo menos duas capacidades que você possa verificar com os documentos originais.

  2. Leia o Preparedness Framework v2 da OpenAI na íntegra. Identifique cada Categoria de Pesquisa (Research Category). Para cada uma, escreva uma frase sobre o motivo de estar em Pesquisa em vez de Monitorada.

  3. Leia o FSF v3 do DeepMind na íntegra, além da atualização de Níveis de Capacidade Monitorados de abril de 2026. Identifique os critérios de avaliação específicos do nível 1 de autonomia de P&D de ML. Como você mediria isso externamente?

  4. O sandbagging está nas Categorias de Pesquisa da OpenAI. Projete uma avaliação que forçaria um modelo em sandbagging a revelar sua capacidade real. Faça referência à discussão sobre manipulação de contexto de avaliação (eval-context-gaming) da Lição 1.

  5. Compare as três políticas em uma capacidade específica (de sua escolha). Indique qual classificação de política você considera mais rigorosa e qual a menos rigorosa. Justifique com o texto original.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
Preparedness Framework "A política de escala da OpenAI" PF v2 (abril de 2025); categorias Monitoradas (Tracked) vs de Pesquisa (Research)
Categoria Monitorada (Tracked Category) "Mitigação obrigatória" Aciona Relatórios de Capacidades + Salvaguardas; revisão do SAG
Categoria de Pesquisa (Research Category) "Apenas monitorada" Monitorada, mas sem mitigação automática; inclui Autonomia de Longo Alcance
Frontier Safety Framework "A política de escala do DeepMind" FSF v3 (set de 2025) + Níveis de Capacidade Monitorados (abr de 2026)
CCL "Nível Crítico de Capacidade" Limiar do DeepMind por domínio (Cibernético, Biológico, P&D de ML, QNRB/CBRN)
ML R&D autonomy level 1 "Automação de P&D" Automatiza totalmente o pipeline de P&D de IA a um custo competitivo
Sandbagging "Desempenho abaixo da capacidade real estrategicamente" O modelo apresenta desempenho inferior em avaliações; nas Categorias de Pesquisa da OpenAI
Raciocínio instrumental "Raciocínio de meios e fins" Raciocínio sobre como atingir objetivos; alvo do monitoramento do DeepMind

Leituras Adicionais

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).