Phase 18 - Lesson 18

Frameworks de Segurança de Fronteira — RSP, PF, FSF

Três frameworks dos principais laboratórios definem a governança industrial da capacidade de fronteira em 2026. A Política de Dimensionamento Responsável (RSP - Responsible Scaling Policy) v3.0 da Anthropic (fevereiro de 2026) introduz níveis de segurança de IA em camadas (ASL-1 a ASL-5+), modelados em níveis de biossegurança, com o ASL-3 ativado em maio de 2025 para modelos relevantes para CBRN. O Preparedness Framework v2 da OpenAI (abril de 2025) define cinco critérios para capacidades rastreadas e separa os Relatórios de Capacidade dos Relatórios de Salvaguardas. O Frontier Safety Framework v3.0 da DeepMind (setembro de 2025) introduz Níveis de Capacidade Crítica (CCLs), incluindo um novo CCL de Manipulação Prejudicial. Todos os três agora incluem cláusulas de ajuste de concorrentes, permitindo o diferimento caso laboratórios concorrentes lancem modelos sem salvaguardas comparáveis. O alinhamento entre laboratórios continua estrutural, não terminológico: "Capability Thresholds," "High Capability thresholds" e "Critical Capability Levels" denotam construções análogas.

Tipo: Learn Idiomas: nenhum Pré-requisitos: Phase 18 · 17 (WMDP), Phase 18 · 07-09 (falhas de decepção) Tempo: ~75 minutos

Objetivos de Aprendizado

  • Descrever a estrutura de níveis ASL da Anthropic e o que ativou o ASL-3.
  • Nomear os cinco critérios do Preparedness Framework v2 da OpenAI para capacidades rastreadas.
  • Descrever a estrutura de Níveis de Capacidade Crítica da DeepMind e o CCL de Manipulação Prejudicial.
  • Explicar as cláusulas de ajuste de concorrentes e por que elas importam para a dinâmica de corrida.
  • Definir um caso de segurança (safety case) e descrever a estrutura de três pilares (monitoramento, ilegibilidade, incapacidade).

O Problema

As Lições 7 a 17 estabelecem que a decepção é possível, a capacidade de dupla utilização existe e a avaliação tem limites. Um laboratório com um modelo capaz de fronteira precisa de uma estrutura de governança interna que:

  • Defina limites para quando novas salvaguardas forem exigidas.
  • Defina as avaliações exigidas antes do dimensionamento.
  • Descreva como se parece um caso de segurança.
  • Lide com o problema da dinâmica de corrida (se os concorrentes lançarem modelos sem salvaguardas, o que você faz?).

Os três frameworks de 2025-2026 são o estado da arte — imperfeitos, em evolução e alinhados o suficiente entre os laboratórios para que a questão de governança agora seja se os frameworks são adequados, não se eles existem.

O Conceito

Política de Dimensionamento Responsável (RSP) v3.0 da Anthropic (Fevereiro de 2026)

Estrutura ASL:

  • ASL-1: não é um modelo de fronteira (subsumido por linha de base inferior à de fronteira).
  • ASL-2: linha de base atual de fronteira; implantado com as salvaguardas usuais.
  • ASL-3: risco substancialmente maior de uso indevido catastrófico; capacidades relevantes para CBRN. Ativado em maio de 2025.
  • ASL-4: limite de travessia de AI R&D-2; modelos que conseguem automatizar pesquisa básica de IA.
  • ASL-5+: AI R&D avançado; modelos que aceleram drasticamente o dimensionamento eficaz.

Novidades na v3.0:

  • Roteiros de Segurança de Fronteira (Frontier Safety Roadmaps - públicos em formato redigido).
  • Relatórios de Risco (Risk Reports - trimestrais, alguns revisados externamente).
  • AI R&D é desmembrado em AI R&D-2 e AI R&D-4.
  • Uma vez cruzado o AI R&D-4, é exigido um caso de segurança afirmativo, identificando riscos de desalinhamento de modelos que buscam objetivos desalinhados.

Preparedness Framework v2 da OpenAI (15 de Abril de 2025)

Cinco critérios para capacidades rastreadas:

  • Plausível (Plausible). Existe um modelo de ameaça razoável.
  • Mensurável (Measurable). Avaliação empírica possível.
  • Grave (Severe). O dano é grande.
  • Novo líquido (Net-new). Não é um risco preexistente dimensionado.
  • Instantâneo ou irremediável (Instantaneous-or-irremediable). O dano ocorre rapidamente ou não pode ser desfeito.

Capacidades que atendem a todos os cinco são rastreadas. Outras não.

Outras estruturas do PF v2:

  • Separação dos Relatórios de Capacidades (o que o modelo consegue fazer) dos Relatórios de Salvaguardas (quais controles existem).
  • Avaliações do Grupo Consultivo de Segurança (Safety Advisory Group).
  • A liderança aprova; o Comitê de Segurança e Proteção do Conselho (Board's Safety & Security Committee) supervisiona.
  • "Cláusula de ajuste": a OpenAI pode reduzir as exigências caso outro laboratório lance modelos sem salvaguardas comparáveis.

Frontier Safety Framework v3.0 da DeepMind (Setembro de 2025)

Níveis de Capacidade Crítica (CCLs) por domínio:

  • Ganho em Armas Biológicas (Bioweapon Uplift)
  • Ganho em Cibernética (Cyber Uplift)
  • Aceleração de P&D em ML (ML R&D Acceleration)
  • Manipulação Prejudicial (novo na v3.0): modelos que poderiam mudar substancialmente crenças/comportamentos em contextos de alto risco.

A v2.0 (fevereiro de 2025) adicionou uma seção de Alinhamento Enganoso (Deceptive Alignment) e níveis de segurança mais altos para CCLs de P&D em ML.

Alinhamento entre laboratórios

  • "Capability Thresholds" (Limites de Capacidade) da Anthropic.
  • "Critical Capability Levels" (Níveis de Capacidade Crítica) da DeepMind.
  • "High Capability thresholds" (Limites de Alta Capacidade) da OpenAI.

Não há terminologia padrão da indústria. Estruturalmente alinhados: três camadas de capacidade de fronteira com critérios de avaliação publicados. Todos os três incluem cláusulas de ajuste de concorrentes (a partir de 2025).

Casos de segurança (Safety cases)

Um caso de segurança é um argumento escrito de que uma implantação é aceitavelmente segura sob premissas de pior caso. A estrutura padrão visa três pilares:

  • Monitoramento. Conseguimos detectar mau comportamento caso ele ocorra?
  • Ilegibilidade. O modelo carece de capacidade para executar um plano coerente para causar danos?
  • Incapacidade. O modelo carece de capacidade para causar o dano em questão?

Casos de segurança diferentes visam pilares diferentes. Para um caso CBRN de nível ASL-3, a incapacidade (via desaprendizado) é o alvo principal. Para alinhamento engano, o monitoramento e a ilegibilidade são os alvos. Para ganho em cibernética, todos os três são relevantes.

O problema da dinâmica de corrida

As cláusulas de ajuste de concorrentes são controversas. Críticos argumentam que elas criam uma corrida para o fundo do poço: se todos os três laboratórios reduzirem as exigências quando um concorrente desertar, o equilíbrio mudará em direção à deserção. Defensores argumentam que a alternativa (salvaguardas unilaterais) produz resultados piores se o laboratório desertor for menos consciente em relação à segurança.

UK AISI, US CAISI e EU AI Office (Lição 24) são as contrapartes externas de governança. Os frameworks dos laboratórios são voluntários; os frameworks regulatórios estão emergindo.

Onde isso se encaixa na Fase 18

As Lições 17 e 18 são a camada de medição e governança sobre as análises de decepção e red-team. As Lições 19 a 24 cobrem bem-estar, viés, privacidade, marca d'água e estrutura regulatória. A Lição 28 mapeia o ecossistema de pesquisa (MATS, Redwood, Apollo, METR) que operacionaliza as avaliações.

Pratique

Sem código para esta lição. Leia as três fontes primárias: RSP v3.0, PF v2 e FSF v3.0. Mapeie a estrutura de camadas de cada laboratório em relação aos outros e identifique um limite que cada laboratório define e que os outros não.

Entregue

Esta lição produz outputs/skill-framework-diff.md. Diante de um framework de segurança ou nota de lançamento, ela compara as definições de limite do framework, as avaliações exigidas e a estrutura do caso de segurança em relação ao RSP v3.0, PF v2 e FSF v3.0, e sinaliza lacunas entre os laboratórios.

Exercícios

  1. Leia o RSP v3.0, o PF v2 e o FSF v3.0. Compile uma tabela com o limite CBRN de cada laboratório, o limite de P&D de IA de cada um e a avaliação pré-implantação exigida por cada um.

  2. A cláusula de ajuste de concorrentes está presente em todos os três frameworks (2025+). Escreva um parágrafo defendendo-a; escreva um parágrafo criticando-a. Identifique a premissa da qual cada posição depende.

  3. Projete um caso de segurança para um modelo que cruza o limite AI R&D-4 da Anthropic. Nomeie as evidências que cada um dos três pilares (monitoramento, ilegibilidade, incapacidade) exige.

  4. O FSF v3.0 da DeepMind introduz um CCL de Manipulação Prejudicial. Proponha três medições empíricas que indicariam que um modelo cruzou esse limite.

  5. Leia o documento da METR "Common Elements of Frontier AI Safety Policies" (2025). Nomeie as três convergências mais fortes e as duas maiores divergências entre os laboratórios.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
RSP "framework da Anthropic" Responsible Scaling Policy (Política de Dimensionamento Responsável); camadas ASL; v3.0 de fevereiro de 2026
PF "framework da OpenAI" Preparedness Framework (Framework de Preparação); cinco critérios; v2 de abril de 2025
FSF "framework da DeepMind" Frontier Safety Framework (Framework de Segurança de Fronteira); CCLs; v3.0 de setembro de 2025
ASL-3 "análogo ao nível 3 de biossegurança" Nível da Anthropic para capacidades relevantes para CBRN; ativado em maio de 2025
CCL "nível de capacidade crítica" Construto de limite da DeepMind; por domínio
Caso de segurança "o argumento formal" Argumento escrito de que a implantação é aceitavelmente segura sob premissas de pior caso
Cláusula de ajuste "tolerância à deserção de concorrentes" Provisão do framework para reduzir exigências caso os concorrentes lançem modelos sem salvaguardas comparáveis

Leituras Adicionais

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).