Phase 15 - Lesson 19

Anthropic Responsible Scaling Policy v3.0

A RSP v3.0 entrou em vigor em 24 de fevereiro de 2026, substituindo a política de 2023. Mitigação em dois níveis: o que a Anthropic fará unilateralmente vs. o que é apresentado como uma recomendação para todo o setor (incluindo padrões de segurança RAND SL-4). Adiciona Roteiros de Segurança de Fronteira (Frontier Safety Roadmaps) e Relatórios de Risco (Risk Reports) como documentos permanentes em vez de entregas pontuais. Descarta o compromisso de pausa de 2023. Introduz o limite AI R&D-4: uma vez ultrapassado, a Anthropic deve publicar um caso afirmativo identificando riscos de desalinhamento e mitigações. O Claude Opus 4.6 não o ultrapassa. A Anthropic afirma no anúncio da v3.0 que "descartar isso com confiança está se tornando difícil". A SaferAI avaliou a RSP de 2023 em 2,2; eles rebaixaram a v3.0 para 1,9, colocando a Anthropic na categoria de RSP "fraca" ao lado da OpenAI e DeepMind. Limites qualitativos substituíram os compromissos quantitativos de 2023; a remoção da cláusula de pausa é a regressão mais acentuada.

Tipo: Aprender Linguagens: Python (stdlib, mecanismo de decisão de limite de RSP) Pré-requisitos: Fase 15 · 06 (AAR), Fase 15 · 07 (RSI) Tempo: ~45 minutos

The Problem

Os laboratórios de fronteira publicam políticas de dimensionamento (scaling policies) que são em parte documentos técnicos, em parte documentos de governança e em parte sinais para reguladores. A RSP v3.0 é o documento atual da Anthropic. Lê-lo com atenção é importante não porque a conformidade com ele seja obrigatória (não é), mas porque a estrutura molda como um laboratório concebe o risco catastrófico e como eles comunicam as compensações (trade-offs) ao público.

A diferença entre a v3.0 e a v2.0 é a unidade útil. O que foi adicionado: Roteiros de Segurança de Fronteira (Frontier Safety Roadmaps), Relatórios de Risco (Risk Reports), o limite AI R&D-4. O que foi removido: o compromisso de pausa de 2023. O que foi reestruturado: um cronograma de mitigação em dois níveis dividido entre o unilateral da Anthropic e recomendação para o setor. A revisão externa — SaferAI — rebaixou a nota de 2,2 (v2) para 1,9 (v3.0). É assim que uma política de dimensionamento pode se tornar menos rigorosa enquanto parece mais polida.

The Concept

O cronograma de mitigação em dois níveis

  • Ações unilaterais da Anthropic: o que a Anthropic fará independentemente do que outros laboratórios façam. A interrupção do treinamento acima de um limite, medidas de segurança específicas, portas (gates) de implantação específicas.
  • Recomendações para todo o setor: o que a Anthropic pensa que o setor deveria fazer coletivamente. Inclui os padrões de segurança RAND SL-4. Esses não são compromissos por parte da Anthropic; são defesa de políticas (advocacy).

A estrutura em dois níveis não estava na v2. Isso significa que o leitor precisa olhar em qual coluna cada compromisso está localizado. Uma medida de segurança na coluna "recomendação para todo o setor" não é uma promessa da Anthropic; é uma esperança da Anthropic.

O limite AI R&D-4

Este é o nível de capacidade que a RSP v3.0 aponta como o próximo limite importante. Especificamente: um modelo que poderia automatizar uma fração substancial da pesquisa de IA a um custo competitivo. Assim que a Anthropic acreditar que um modelo ultrapassou esse limite, ela deve publicar um caso afirmativo identificando os riscos de desalinhamento e as mitigações antes de continuar o dimensionamento.

O Claude Opus 4.6 não o ultrapassa, de acordo com o anúncio da v3.0. O documento acrescenta: "descartar isso com confiança está se tornando difícil". Essa frase é importante; ela admite que o limite está próximo o suficiente para ser uma preocupação real, não um limite especulativo.

A Lição 6 (Pesquisa de Alinhamento Automatizada) e a Lição 7 (Autoaperfeiçoamento Recursivo) alimentam diretamente esse limite. Pesquisadores de alinhamento automatizados superando barreiras de qualidade de pesquisa é uma evidência de que o limite AI R&D-4 está se aproximando.

Roteiros de Segurança de Fronteira e Relatórios de Risco

A v3.0 eleva dois tipos de artefatos a documentos permanentes:

  • Roteiro de Segurança de Fronteira (Frontier Safety Roadmap): documento voltado para o futuro que descreve o trabalho de segurança planejado, expectativas de capacidade e pesquisa de mitigação.
  • Relatório de Risco (Risk Report): documento retrospectivo sobre modelos específicos após o lançamento, descrevendo a capacidade observada e o risco residual.

Ambos são públicos. Ambos são atualizados em uma cadência declarada. A utilidade é: o leitor pode acompanhar como o que a Anthropic disse que faria em um Roteiro (Roadmap) se compara com o que ela relata em um Relatório de Risco (Risk Report).

Removendo a cláusula de pausa

A RSP de 2023 incluía um compromisso explícito de pausa: se um modelo ultrapassasse limites de capacidade específicos, o treinamento seria pausado até que as mitigações estivessem em vigor. A v3.0 substitui a pausa explícita por uma formulação mais branda (publicar um caso afirmativo, prosseguir se as mitigações forem adequadas). A SaferAI e outros analistas apontaram isso diretamente como a regressão mais forte no novo documento.

O argumento político para a mudança: os limites quantitativos em 2023 acabaram sendo inalcançáveis pelos benchmarks de capacidade da era de 2026 porque os próprios benchmarks foram redimensionados. O contra-argumento: uma cláusula de pausa em uma política de dimensionamento é um dispositivo de compromisso; removê-la remove a credibilidade da política.

O rebaixamento da SaferAI

A SaferAI é uma organização independente que avalia documentos do tipo RSP. Sua classificação pública: a RSP da Anthropic de 2023 obteve pontuação 2,2 (em uma escala onde 4,0 é a melhor RSP atual e 1,0 é nominal). A v3.0 pontuou 1,9. Isso moveu a Anthropic de "moderada" para "fraca", juntando-se à OpenAI e à DeepMind na categoria fraca.

Os fatores de rebaixamento segundo a SaferAI:

  • Limites qualitativos substituíram os quantitativos.
  • Compromisso de pausa removido.
  • As mitigações para o limite AI R&D-4 são descritas como "caso afirmativo" em vez de medidas específicas.
  • Os mecanismos de revisão dependem do Grupo Consultivo de Segurança (Safety Advisory Group) da Anthropic, com supervisão independente limitada.

O que esta lição não é

Esta não é uma lição de conformidade. A RSP v3.0 não é um regulamento; nada obriga a Anthropic a cumpri-la. A lição está em ler o documento com a especificidade e o ceticismo que ele merece. As políticas de dimensionamento são o principal sinal público que os laboratórios de fronteira emitem sobre a postura de risco catastrófico. Lê-las bem é uma habilidade prática para qualquer pessoa cujo trabalho dependa de capacidades de fronteira.

Use It

code/main.py implementa um pequeno mecanismo de decisão que reflete o formato de avaliação de limite de RSP: dado um modelo candidato e um conjunto de medições de capacidade, retorna se o limite AI R&D-4 foi ultrapassado, as seções necessárias do caso afirmativo e se a implantação pode prosseguir. É intencionalmente simples; o objetivo é tornar explícita a lógica do documento.

Ship It

outputs/skill-scaling-policy-review.md analisa uma política de dimensionamento (Anthropic, OpenAI, DeepMind ou interna) em relação à referência v3.0: estrutura em dois níveis, limites, compromissos de pausa, revisão independente.

Exercises

  1. Execute code/main.py. Insira três modelos sintéticos em diferentes níveis de capacidade. Confirme se o avaliador de limite se comporta como esperado e produz o modelo correto de caso afirmativo.

  2. Leia a RSP v3.0 na íntegra (32 páginas). Identifique cada compromisso que está no nível de "recomendação para todo o setor". Quais desses compromissos teriam sido "unilaterais da Anthropic" na v2?

  3. Leia a metodologia de classificação de RSP da SaferAI. Reproduza a pontuação de 1,9 para a v3.0 aplicando a rubrica deles ao documento. Qual linha da rubrica impulsionou mais o rebaixamento?

  4. O compromisso de pausa de 2023 foi removido. Proponha um compromisso substituto que preserve a credibilidade da política ao mesmo tempo em que reconhece o problema de redimensionamento de benchmark de 2026.

  5. Compare a RSP v3.0 com o OpenAI Preparedness Framework v2 (Lição 20). Escolha uma área onde a RSP v3.0 é mais forte. Escolha uma área onde o Preparedness Framework é mais forte.

Key Terms

Termo O que as pessoas dizem O que realmente significa
RSP "Política de dimensionamento da Anthropic" Responsible Scaling Policy (Política de Dimensionamento Responsável); v3.0 em vigor desde 24 de fev. de 2026
AI R&D-4 "Limite de automação de pesquisa" Capacidade de automatizar pesquisa substancial de IA a um custo competitivo
Caso afirmativo "Justificativa de segurança" Argumento publicado de que os riscos foram identificados e as mitigações são adequadas
Roteiro de Segurança de Fronteira "Plano futuro" Documento permanente sobre o trabalho de segurança planejado e capacidades esperadas
Relatório de Risco "Retrospectiva de um modelo" Documento permanente sobre a capacidade observada e o risco residual após o lançamento
Mitigação em dois níveis "Unilateral vs. setor" Compromissos da Anthropic vs. recomendações para o setor, separados
Compromisso de pausa "Cláusula de 2023" Promessa explícita de pausar o treinamento; removida na v3.0
Classificação SaferAI "Nota de RSP independente" Rubrica de terceiros; v3.0 pontuou 1,9 (v2 foi 2,2)

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).