Phase 15 - Lesson 19

Anthropic Responsible Scaling Policy v3.0

La RSP v3.0 entró en vigor el 24 de febrero de 2026, reemplazando la política de 2023. Mitigación en dos niveles: lo que Anthropic hará unilateralmente frente a lo que se enmarca como una recomendación para toda la industria (incluyendo los estándares de seguridad RAND SL-4). Agrega las Hojas de Ruta de Seguridad de Frontera (Frontier Safety Roadmaps) y los Reportes de Riesgo (Risk Reports) como documentos permanentes en lugar de entregables únicos. Elimina el compromiso de pausa de 2023. Introduce el umbral AI R&D-4: una vez cruzado, Anthropic debe publicar un caso afirmativo que identifique los riesgos de desalineación y las mitigaciones. Claude Opus 4.6 no lo cruza. Anthropic afirma en el anuncio de la v3.0 que "descartar esto con confianza se está volviendo difícil". SaferAI calificó la RSP de 2023 con un 2.2; degradaron la v3.0 a 1.9, colocando a Anthropic en la categoría de RSP "débil" junto a OpenAI y DeepMind. Los umbrales cualitativos reemplazaron a los compromisos cuantitativos de 2023; la eliminación de la cláusula de pausa es la regresión más marcada.

Type: Learn Languages: Python (stdlib, motor de decisión de umbral de RSP) Prerequisites: Phase 15 · 06 (AAR), Phase 15 · 07 (RSI) Time: ~45 minutos

The Problem

Los laboratorios de frontera publican políticas de escalamiento (scaling policies) que son en parte documentos técnicos, en parte documentos de gobernanza y en parte señales para los reguladores. La RSP v3.0 es el documento actual de Anthropic. Leerlo con atención es importante no porque su cumplimiento sea obligatorio (no lo es), sino porque el marco de referencia define cómo un laboratorio concibe el riesgo catastrófico y cómo comunica las concesiones (trade-offs) al público.

La diferencia entre la v3.0 y la v2.0 es la unidad útil. Lo que se agregó: Hojas de Ruta de Seguridad de Frontera (Frontier Safety Roadmaps), Reportes de Riesgo (Risk Reports) y el umbral AI R&D-4. Lo que se eliminó: el compromiso de pausa de 2023. Lo que se reestructuró: un esquema de mitigación de dos niveles dividido entre lo unilateral de Anthropic y la recomendación para la industria. La revisión externa — SaferAI — degradó la puntuación de 2.2 (v2) a 1.9 (v3.0). Así es como una política de escalamiento puede volverse menos rigurosa mientras luce más pulida.

The Concept

The two-tier mitigation schedule

Acciones unilaterales de Anthropic: lo que Anthropic hará independientemente de lo que hagan otros laboratorios. Detención del entrenamiento por encima de un umbral, medidas de seguridad específicas, compuertas (gates) de despliegue específicas.
Recomendaciones para toda la industria: lo que Anthropic cree que la industria debería hacer colectivamente. Incluye los estándares de seguridad RAND SL-4. Estos no son compromisos por parte de Anthropic; son defensa de políticas (policy advocacy).

La estructura de dos niveles no estaba en la v2. Esto significa que el lector debe fijarse en qué columna reside cada compromiso. Una medida de seguridad en la columna de "recomendación para toda la industria" no es una promesa de Anthropic; es una esperanza de Anthropic.

The AI R&D-4 threshold

Este es el nivel de capacidad que la RSP v3.0 señala como el siguiente umbral importante. Específicamente: un modelo que podría automatizar una fracción sustancial de la investigación de IA a un costo competitivo. Una vez que Anthropic crea que un modelo cruza este umbral, debe publicar un caso afirmativo que identifique los riesgos de desalineación y las mitigaciones antes de continuar con el escalamiento.

Claude Opus 4.6 no lo cruza según el anuncio de la v3.0. El documento añade: "descartar esto con confianza se está volviendo difícil". Esa redacción es importante; concede que el umbral está lo suficientemente cerca como para ser una preocupación real, no un límite especulativo.

La Lección 6 (Investigación de Alineación Automatizada) y la Lección 7 (Auto-mejora Recursiva) alimentan directamente a este umbral. El hecho de que los investigadores de alineación automatizada superen las barreras de calidad de la investigación es evidencia de que el umbral AI R&D-4 se está acercando.

Frontier Safety Roadmaps and Risk Reports

La v3.0 eleva dos tipos de artefactos a documentos permanentes:

Hoja de Ruta de Seguridad de Frontera (Frontier Safety Roadmap): documento con visión de futuro que describe el trabajo de seguridad planificado, las expectativas de capacidad y la investigación de mitigación.
Reporte de Riesgo (Risk Report): documento retrospectivo sobre modelos específicos después de su lanzamiento, que describe la capacidad observada y el riesgo residual.

Ambos son públicos. Ambos se actualizan con una frecuencia declarada. La utilidad es: el lector puede rastrear cómo lo que Anthropic dijo que haría en una Hoja de Ruta (Roadmap) se compara con lo que reporta en un Reporte de Riesgo (Risk Report).

Removing the pause clause

La RSP de 2023 incluía un compromiso explícito de pausa: si un modelo cruzaba umbrales de capacidad específicos, el entrenamiento se pausaría hasta que las mitigaciones estuvieran en su lugar. La v3.0 reemplaza la pausa explícita con una formulación más suave (publicar un caso afirmativo, proceder si las mitigaciones son adecuadas). SaferAI y otros analistas señalaron esto directamente como la regresión más fuerte en el nuevo documento.

El argumento político para el cambio: los umbrales cuantitativos en 2023 resultaron inalcanzables para los benchmarks de capacidad de la era de 2026 porque los benchmarks mismos fueron reescalados. El contraargumento: una cláusula de pausa en una política de escalamiento es un mecanismo de compromiso; eliminarla le quita credibilidad a la política.

SaferAI's downgrade

SaferAI es una organización independiente que califica documentos tipo RSP. Su calificación pública: la RSP de Anthropic de 2023 obtuvo una puntuación de 2.2 (en una escala donde 4.0 es la mejor RSP actual y 1.0 es nominal). La v3.0 obtuvo una puntuación de 1.9. Esto movió a Anthropic de "moderado" a "débil", uniéndose a OpenAI y DeepMind en la categoría débil.

Los factores de la degradación según SaferAI:

Los umbrales cualitativos reemplazaron a los cuantitativos.
Se eliminó el compromiso de pausa.
Las mitigaciones para el umbral AI R&D-4 se describen como un "caso afirmativo" en lugar de medidas específicas.
Los mecanismos de revisión dependen del Grupo Asesor de Seguridad (Safety Advisory Group) de Anthropic, con una supervisión independiente limitada.

What this lesson is not

Esta no es una lección de cumplimiento. La RSP v3.0 no es una regulación; nada obliga a Anthropic a seguirla. La lección radica en leer el documento con la especificidad y el escepticismo que merece. Las políticas de escalamiento son la principal señal pública que emiten los laboratorios de frontera sobre su postura ante riesgos catastróficos. Leerlas bien es una habilidad práctica para cualquiera cuyo trabajo dependa de las capacidades de frontera.

Use It

code/main.py implementa un pequeño motor de decisión que refleja la estructura de evaluación de umbrales de la RSP: dado un modelo candidato y un conjunto de mediciones de capacidad, devuelve si se cruzó el umbral AI R&D-4, las secciones requeridas del caso afirmativo y si el despliegue puede continuar. Es intencionalmente simple; el punto es hacer explícita la lógica del documento.

Ship It

outputs/skill-scaling-policy-review.md revisa una política de escalamiento (Anthropic, OpenAI, DeepMind o interna) frente a la referencia de la v3.0: estructura de dos niveles, umbrales, compromisos de pausa y revisión independiente.

Exercises

Ejecute code/main.py. Ingrese tres modelos sintéticos en diferentes niveles de capacidad. Confirme que el evaluador de umbral se comporte como se espera y genere la plantilla de caso afirmativo correcta.
Lea la RSP v3.0 completa (32 páginas). Identifique cada compromiso que resida en el nivel de "recomendación para toda la industria". ¿Cuáles de esos compromisos habrían sido "unilaterales de Anthropic" en la v2?
Lea la metodología de calificación de RSP de SaferAI. Reproduzca su puntuación de 1.9 para la v3.0 aplicando su rúbrica al documento. ¿Qué fila de la rúbrica impulsó más la degradación?
El compromiso de pausa de 2023 fue eliminado. Proponga un compromiso de reemplazo que preserve la credibilidad de la política al tiempo que reconoce el problema de reescalamiento de benchmarks de 2026.
Compare la RSP v3.0 con el Preparedness Framework v2 de OpenAI (Lección 20). Elija un área donde la RSP v3.0 sea más fuerte. Elija un área donde el Preparedness Framework sea más fuerte.

Key Terms

Término	Lo que dice la gente	Lo que realmente significa
RSP	"La política de escalamiento de Anthropic"	Responsible Scaling Policy (Política de Escalamiento Responsable); v3.0 vigente desde el 24 de feb. de 2026
AI R&D-4	"Umbral de automatización de investigación"	Capacidad para automatizar una investigación sustancial de IA a un costo competitivo
Caso afirmativo	"Justificación de seguridad"	Argumento publicado de que se han identificado los riesgos y las mitigaciones son adecuadas
Hoja de Ruta de Seguridad de Frontera	"Plan a futuro"	Documento permanente sobre el trabajo de seguridad planificado y las capacidades esperadas
Reporte de Riesgo	"Retrospectiva de un modelo"	Documento permanente sobre la capacidad observada y el riesgo residual después del lanzamiento
Mitigación en dos niveles	"Unilateral frente a industria"	Compromisos de Anthropic frente a recomendaciones para la industria, por separado
Compromiso de pausa	"Cláusula de 2023"	Promesa explícita de pausar el entrenamiento; eliminada en la v3.0
Calificación de SaferAI	"Calificación de RSP independiente"	Rúbrica de terceros; la v3.0 obtuvo una puntuación de 1.9 (la v2 fue de 2.2)