Phase 15 - Lesson 19
Anthropic Responsible Scaling Policy v3.0
A RSP v3.0 entrou em vigor em 24 de fevereiro de 2026, substituindo a política de 2023. Mitigação em dois níveis: o que a Anthropic fará unilateralmente vs. o que é apresentado como uma recomendação para todo o setor (incluindo padrões de segurança RAND SL-4). Adiciona Roteiros de Segurança de Fronteira (Frontier Safety Roadmaps) e Relatórios de Risco (Risk Reports) como documentos permanentes em vez de entregas pontuais. Descarta o compromisso de pausa de 2023. Introduz o limite AI R&D-4: uma vez ultrapassado, a Anthropic deve publicar um caso afirmativo identificando riscos de desalinhamento e mitigações. O Claude Opus 4.6 não o ultrapassa. A Anthropic afirma no anúncio da v3.0 que "descartar isso com confiança está se tornando difícil". A SaferAI avaliou a RSP de 2023 em 2,2; eles rebaixaram a v3.0 para 1,9, colocando a Anthropic na categoria de RSP "fraca" ao lado da OpenAI e DeepMind. Limites qualitativos substituíram os compromissos quantitativos de 2023; a remoção da cláusula de pausa é a regressão mais acentuada.
Tipo: Aprender Linguagens: Python (stdlib, mecanismo de decisão de limite de RSP) Pré-requisitos: Fase 15 · 06 (AAR), Fase 15 · 07 (RSI) Tempo: ~45 minutos
The Problem
Os laboratórios de fronteira publicam políticas de dimensionamento (scaling policies) que são em parte documentos técnicos, em parte documentos de governança e em parte sinais para reguladores. A RSP v3.0 é o documento atual da Anthropic. Lê-lo com atenção é importante não porque a conformidade com ele seja obrigatória (não é), mas porque a estrutura molda como um laboratório concebe o risco catastrófico e como eles comunicam as compensações (trade-offs) ao público.
A diferença entre a v3.0 e a v2.0 é a unidade útil. O que foi adicionado: Roteiros de Segurança de Fronteira (Frontier Safety Roadmaps), Relatórios de Risco (Risk Reports), o limite AI R&D-4. O que foi removido: o compromisso de pausa de 2023. O que foi reestruturado: um cronograma de mitigação em dois níveis dividido entre o unilateral da Anthropic e recomendação para o setor. A revisão externa — SaferAI — rebaixou a nota de 2,2 (v2) para 1,9 (v3.0). É assim que uma política de dimensionamento pode se tornar menos rigorosa enquanto parece mais polida.
The Concept
O cronograma de mitigação em dois níveis
- Ações unilaterais da Anthropic: o que a Anthropic fará independentemente do que outros laboratórios façam. A interrupção do treinamento acima de um limite, medidas de segurança específicas, portas (gates) de implantação específicas.
- Recomendações para todo o setor: o que a Anthropic pensa que o setor deveria fazer coletivamente. Inclui os padrões de segurança RAND SL-4. Esses não são compromissos por parte da Anthropic; são defesa de políticas (advocacy).
A estrutura em dois níveis não estava na v2. Isso significa que o leitor precisa olhar em qual coluna cada compromisso está localizado. Uma medida de segurança na coluna "recomendação para todo o setor" não é uma promessa da Anthropic; é uma esperança da Anthropic.
O limite AI R&D-4
Este é o nível de capacidade que a RSP v3.0 aponta como o próximo limite importante. Especificamente: um modelo que poderia automatizar uma fração substancial da pesquisa de IA a um custo competitivo. Assim que a Anthropic acreditar que um modelo ultrapassou esse limite, ela deve publicar um caso afirmativo identificando os riscos de desalinhamento e as mitigações antes de continuar o dimensionamento.
O Claude Opus 4.6 não o ultrapassa, de acordo com o anúncio da v3.0. O documento acrescenta: "descartar isso com confiança está se tornando difícil". Essa frase é importante; ela admite que o limite está próximo o suficiente para ser uma preocupação real, não um limite especulativo.
A Lição 6 (Pesquisa de Alinhamento Automatizada) e a Lição 7 (Autoaperfeiçoamento Recursivo) alimentam diretamente esse limite. Pesquisadores de alinhamento automatizados superando barreiras de qualidade de pesquisa é uma evidência de que o limite AI R&D-4 está se aproximando.
Roteiros de Segurança de Fronteira e Relatórios de Risco
A v3.0 eleva dois tipos de artefatos a documentos permanentes:
- Roteiro de Segurança de Fronteira (Frontier Safety Roadmap): documento voltado para o futuro que descreve o trabalho de segurança planejado, expectativas de capacidade e pesquisa de mitigação.
- Relatório de Risco (Risk Report): documento retrospectivo sobre modelos específicos após o lançamento, descrevendo a capacidade observada e o risco residual.
Ambos são públicos. Ambos são atualizados em uma cadência declarada. A utilidade é: o leitor pode acompanhar como o que a Anthropic disse que faria em um Roteiro (Roadmap) se compara com o que ela relata em um Relatório de Risco (Risk Report).
Removendo a cláusula de pausa
A RSP de 2023 incluía um compromisso explícito de pausa: se um modelo ultrapassasse limites de capacidade específicos, o treinamento seria pausado até que as mitigações estivessem em vigor. A v3.0 substitui a pausa explícita por uma formulação mais branda (publicar um caso afirmativo, prosseguir se as mitigações forem adequadas). A SaferAI e outros analistas apontaram isso diretamente como a regressão mais forte no novo documento.
O argumento político para a mudança: os limites quantitativos em 2023 acabaram sendo inalcançáveis pelos benchmarks de capacidade da era de 2026 porque os próprios benchmarks foram redimensionados. O contra-argumento: uma cláusula de pausa em uma política de dimensionamento é um dispositivo de compromisso; removê-la remove a credibilidade da política.
O rebaixamento da SaferAI
A SaferAI é uma organização independente que avalia documentos do tipo RSP. Sua classificação pública: a RSP da Anthropic de 2023 obteve pontuação 2,2 (em uma escala onde 4,0 é a melhor RSP atual e 1,0 é nominal). A v3.0 pontuou 1,9. Isso moveu a Anthropic de "moderada" para "fraca", juntando-se à OpenAI e à DeepMind na categoria fraca.
Os fatores de rebaixamento segundo a SaferAI:
- Limites qualitativos substituíram os quantitativos.
- Compromisso de pausa removido.
- As mitigações para o limite AI R&D-4 são descritas como "caso afirmativo" em vez de medidas específicas.
- Os mecanismos de revisão dependem do Grupo Consultivo de Segurança (Safety Advisory Group) da Anthropic, com supervisão independente limitada.
O que esta lição não é
Esta não é uma lição de conformidade. A RSP v3.0 não é um regulamento; nada obriga a Anthropic a cumpri-la. A lição está em ler o documento com a especificidade e o ceticismo que ele merece. As políticas de dimensionamento são o principal sinal público que os laboratórios de fronteira emitem sobre a postura de risco catastrófico. Lê-las bem é uma habilidade prática para qualquer pessoa cujo trabalho dependa de capacidades de fronteira.
Use It
code/main.py implementa um pequeno mecanismo de decisão que reflete o formato de avaliação de limite de RSP: dado um modelo candidato e um conjunto de medições de capacidade, retorna se o limite AI R&D-4 foi ultrapassado, as seções necessárias do caso afirmativo e se a implantação pode prosseguir. É intencionalmente simples; o objetivo é tornar explícita a lógica do documento.
Ship It
outputs/skill-scaling-policy-review.md analisa uma política de dimensionamento (Anthropic, OpenAI, DeepMind ou interna) em relação à referência v3.0: estrutura em dois níveis, limites, compromissos de pausa, revisão independente.
Exercises
Execute
code/main.py. Insira três modelos sintéticos em diferentes níveis de capacidade. Confirme se o avaliador de limite se comporta como esperado e produz o modelo correto de caso afirmativo.Leia a RSP v3.0 na íntegra (32 páginas). Identifique cada compromisso que está no nível de "recomendação para todo o setor". Quais desses compromissos teriam sido "unilaterais da Anthropic" na v2?
Leia a metodologia de classificação de RSP da SaferAI. Reproduza a pontuação de 1,9 para a v3.0 aplicando a rubrica deles ao documento. Qual linha da rubrica impulsionou mais o rebaixamento?
O compromisso de pausa de 2023 foi removido. Proponha um compromisso substituto que preserve a credibilidade da política ao mesmo tempo em que reconhece o problema de redimensionamento de benchmark de 2026.
Compare a RSP v3.0 com o OpenAI Preparedness Framework v2 (Lição 20). Escolha uma área onde a RSP v3.0 é mais forte. Escolha uma área onde o Preparedness Framework é mais forte.
Key Terms
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| RSP | "Política de dimensionamento da Anthropic" | Responsible Scaling Policy (Política de Dimensionamento Responsável); v3.0 em vigor desde 24 de fev. de 2026 |
| AI R&D-4 | "Limite de automação de pesquisa" | Capacidade de automatizar pesquisa substancial de IA a um custo competitivo |
| Caso afirmativo | "Justificativa de segurança" | Argumento publicado de que os riscos foram identificados e as mitigações são adequadas |
| Roteiro de Segurança de Fronteira | "Plano futuro" | Documento permanente sobre o trabalho de segurança planejado e capacidades esperadas |
| Relatório de Risco | "Retrospectiva de um modelo" | Documento permanente sobre a capacidade observada e o risco residual após o lançamento |
| Mitigação em dois níveis | "Unilateral vs. setor" | Compromissos da Anthropic vs. recomendações para o setor, separados |
| Compromisso de pausa | "Cláusula de 2023" | Promessa explícita de pausar o treinamento; removida na v3.0 |
| Classificação SaferAI | "Nota de RSP independente" | Rubrica de terceiros; v3.0 pontuou 1,9 (v2 foi 2,2) |
Further Reading
- Anthropic — Responsible Scaling Policy v3.0 — a política completa de 32 páginas.
- Anthropic — RSP v3.0 announcement — resumo das alterações da v2.
- Anthropic — Frontier Safety Roadmap — documento permanente vinculado a partir da RSP v3.0.
- Anthropic — Risk Report: Claude Opus 4.6 — retrospectiva sobre o modelo de fronteira atual.
- Anthropic — Measuring agent autonomy in practice — conecta o AI R&D-4 à autonomia medida.