Phase 18 - Lesson 18
Marcos de Seguridad de Frontera — RSP, PF, FSF
Tres marcos de los principales laboratorios definen la gobernanza industrial de la capacidad de frontera en 2026. La Política de Escalado Responsable (RSP - Responsible Scaling Policy) v3.0 de Anthropic (febrero de 2026) introduce niveles de seguridad de IA por capas (ASL-1 a ASL-5+), modelados sobre niveles de bioseguridad, con el ASL-3 activado en mayo de 2025 para modelos relevantes para CBRN. El Preparedness Framework v2 de OpenAI (abril de 2025) define cinco criterios para capacidades rastreadas y separa los Informes de Capacidades de los Informes de Salvaguardas. El Frontier Safety Framework v3.0 de DeepMind (septiembre de 2025) introduce Niveles de Capacidad Crítica (CCLs), incluyendo un nuevo CCL de Manipulación Dañina. Los tres incluyen ahora cláusulas de ajuste de competidores que permiten el diferimiento si laboratorios pares lanzan modelos sin salvaguardas comparables. El alineamiento entre laboratorios sigue siendo estructural, no terminológico: "Capability Thresholds," "High Capability thresholds" y "Critical Capability Levels" denotan constructos análogos.
Tipo: Learn Idiomas: ninguno Prerrequisitos: Phase 18 · 17 (WMDP), Phase 18 · 07-09 (fallas de engaño) Tiempo: ~75 minutos
Objetivos de Aprendizaje
- Describir la estructura de niveles ASL de Anthropic y qué activó el ASL-3.
- Nombrar los cinco criterios del Preparedness Framework v2 de OpenAI para capacidades rastreadas.
- Describir la estructura de Niveles de Capacidad Crítica de DeepMind y el CCL de Manipulación Dañina.
- Explicar las cláusulas de ajuste de competidores y por qué importan para la dinámica de la carrera.
- Definir un caso de seguridad (safety case) y describir la estructura de tres pilares (monitoreo, ilegibilidad, incapacidad).
El Problema
Las Lecciones 7 a 17 establecen que el engaño es posible, la capacidad de doble uso existe y la evaluación tiene límites. Un laboratorio con un modelo con capacidad de frontera necesita una estructura de gobernanza interna que:
- Defina umbrales para cuando se requieran nuevas salvaguardas.
- Defina las evaluaciones requeridas antes del escalado.
- Describa cómo se ve un caso de seguridad.
- Gestione el problema de la dinámica de la carrera (si los competidores lanzan modelos sin salvaguardas, ¿qué haces?).
Los tres marcos de 2025-2026 son el estado del arte: imperfectos, en evolución y lo suficientemente alineados entre los laboratorios como para que la pregunta de gobernanza sea ahora si los marcos son adecuados, no si existen.
El Concepto
Política de Escalado Responsable (RSP) v3.0 de Anthropic (Febrero de 2026)
Estructura ASL:
- ASL-1: no es un modelo de frontera (subsumido por la línea de base por debajo de la de frontera).
- ASL-2: línea de base actual de frontera; implementado con las salvaguardas habituales.
- ASL-3: riesgo sustancialmente mayor de uso indebido catastrófico; capacidades relevantes para CBRN. Activado en mayo de 2025.
- ASL-4: umbral de cruce de AI R&D-2; modelos que pueden automatizar la investigación de IA de nivel inicial.
- ASL-5+: AI R&D avanzado; modelos que aceleran drásticamente el escalado eficaz.
Nuevo en v3.0:
- Hojas de ruta de seguridad de frontera (Frontier Safety Roadmaps: públicas en formato redactado).
- Informes de riesgo (Risk Reports: trimestrales, algunos revisados externamente).
- AI R&D se desglosa en AI R&D-2 y AI R&D-4.
- Una vez que se cruza AI R&D-4, se requiere un caso de seguridad afirmativo que identifique los riesgos de desalineación de los modelos que persiguen objetivos desalineados.
Preparedness Framework v2 de OpenAI (15 de Abril de 2025)
Cinco criterios para capacidades rastreadas:
- Plausible. Existe un modelo de amenaza razonable.
- Medible (Measurable). Evaluación empírica posible.
- Grave (Severe). El daño es grande.
- Nuevo neto (Net-new). No es un riesgo preexistente escalado.
- Instantáneo o irremediable (Instantaneous-or-irremediable). El daño ocurre rápido o no se puede deshacer.
Las capacidades que cumplen con los cinco criterios se rastrean. Las demás no.
Otra estructura de PF v2:
- Separar los Informes de Capacidades (lo que el modelo puede hacer) de los Informes de Salvaguardas (qué controles existen).
- Revisiones del Grupo Asesor de Seguridad (Safety Advisory Group).
- La dirección aprueba; el Comité de Seguridad y Protección de la Junta directiva (Board's Safety & Security Committee) supervisa.
- "Cláusula de ajuste": OpenAI puede reducir los requisitos si otro laboratorio lanza modelos sin salvaguardas comparables.
Frontier Safety Framework v3.0 de DeepMind (Septiembre de 2025)
Niveles de Capacidad Crítica (CCLs) por dominio:
- Aumento en Armas Biológicas (Bioweapon Uplift)
- Aumento en Ciberseguridad (Cyber Uplift)
- Aceleración de ML R&D (ML R&D Acceleration)
- Manipulación Dañina (Harmful Manipulation) (nuevo en v3.0): modelos que podrían cambiar sustancialmente las creencias/el comportamiento en contextos de alto riesgo.
v2.0 (febrero de 2025) agregó una sección de Alineación Engañosa (Deceptive Alignment) y niveles de seguridad más altos para los CCL de ML R&D.
Alineación entre laboratorios
- "Capability Thresholds" (Umbrales de Capacidad) de Anthropic.
- "Critical Capability Levels" (Niveles de Capacidad Crítica) de DeepMind.
- "High Capability thresholds" (Umbrales de Alta Capacidad) de OpenAI.
No hay terminología estándar en la industria. Estructuralmente alineados: tres niveles de capacidad de frontera con criterios de evaluación publicados. Los tres incluyen cláusulas de ajuste de competidores (de 2025 en adelante).
Casos de seguridad (Safety cases)
Un caso de seguridad es un argumento escrito de que una implementación es aceptablemente segura bajo suposiciones del peor de los casos. La estructura estándar se dirige a tres pilares:
- Monitoreo. ¿Podemos detectar el mal comportamiento si ocurre?
- Ilegibilidad. ¿Carece el modelo de la capacidad de ejecutar un plan coherente para causar daño?
- Incapacidad. ¿Carece el modelo de la capacidad para causar el daño en cuestión?
Diferentes casos de seguridad se dirigen a diferentes pilares. Para un caso CBRN ASL-3, la incapacidad (a través del desaprendizaje) es el objetivo principal. Para la alineación engañosa, el monitoreo y la ilegibilidad son los objetivos. Para el aumento en ciberseguridad, los tres son relevantes.
El problema de la dinámica de la carrera
Las cláusulas de ajuste de competidores son controvertidas. Los críticos argumentan que crean una carrera hacia el fondo: si los tres laboratorios reducen los requisitos cuando un competidor deserta, el equilibrio se desplaza hacia la deserción. Los defensores argumentan que la alternativa (salvaguardas unilaterales) produce peores resultados si el laboratorio desertor es menos consciente de la seguridad.
UK AISI, US CAISI y la Oficina de IA de la UE (Lección 24) son las contrapartes externas de gobernanza. Los marcos de los laboratorios son voluntarios; los marcos regulatorios están surgiendo.
Dónde encaja esto en la Lección 18
Las Lecciones 17 y 18 son la capa de medición y gobernanza sobre los análisis de engaño y red-team. Las Lecciones 19 a 24 cubren el bienestar, el sesgo, la privacidad, las marcas de agua y la estructura regulatoria. La Lección 28 mapea el ecosistema de investigación (MATS, Redwood, Apollo, METR) que operacionaliza las evaluaciones.
Práctica
Sin código para esta lección. Lea las tres fuentes primarias: RSP v3.0, PF v2 y FSF v3.0. Mapee la estructura de niveles de cada laboratorio con respecto a los demás e identifique un umbral que cada laboratorio defina y que los demás no.
Entregue
Esta lección produce outputs/skill-framework-diff.md. Dado un marco de seguridad o una nota de lanzamiento, compara las definiciones de umbral del marco, las evaluaciones requeridas y la estructura del caso de seguridad con respecto a RSP v3.0, PF v2 y FSF v3.0 e identifica brechas entre laboratorios.
Ejercicios
Lea RSP v3.0, PF v2 y FSF v3.0. Compile una tabla con el umbral CBRN de cada laboratorio, el umbral de AI R&D de cada uno y la evaluación previa a la implementación requerida por cada uno.
La cláusula de ajuste de competidores está en los tres marcos (2025+). Escriba un párrafo a favor; escriba un párrafo en contra. Identifique la suposición de la que depende cada postura.
Diseñe un caso de seguridad para un modelo que cruza el umbral AI R&D-4 de Anthropic. Nombre la evidencia que requiere cada uno de los tres pilares (monitoreo, ilegibilidad, incapacidad).
El FSF v3.0 de DeepMind introduce un CCL de Manipulación Dañina. Proponga tres mediciones empíricas que indicarían que un modelo ha cruzado este umbral.
Lea "Common Elements of Frontier AI Safety Policies" (2025) de METR. Nombre las tres convergencias más fuertes entre laboratorios y las dos mayores divergencias.
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| RSP | "el marco de Anthropic" | Responsible Scaling Policy (Política de Escalado Responsable); niveles ASL; v3.0 febrero de 2026 |
| PF | "el marco de OpenAI" | Preparedness Framework (Marco de Preparación); cinco criterios; v2 abril de 2025 |
| FSF | "el marco de DeepMind" | Frontier Safety Framework (Marco de Seguridad de Frontera); CCLs; v3.0 septiembre de 2025 |
| ASL-3 | "análogo al nivel de bioseguridad 3" | Nivel de Anthropic para capacidades relevantes para CBRN; activado en mayo de 2025 |
| CCL | "nivel de capacidad crítica" | Constructo de umbral de DeepMind; por dominio |
| Caso de seguridad | "el argumento formal" | Argumento escrito de que la implementación es aceptablemente segura bajo suposiciones del peor de los casos |
| Cláusula de ajuste | "concesión por deserción de competidor" | Disposición del marco para reducir los requisitos si los competidores lanzan modelos sin salvaguardas comparables |
Lecturas Adicionales
- Anthropic — Responsible Scaling Policy v3.0 (febrero de 2026) — niveles ASL, hojas de ruta, desglose de AI R&D
- OpenAI — Updating the Preparedness Framework (15 de abril de 2025) — cinco criterios, cláusula de ajuste
- DeepMind — Strengthening our Frontier Safety Framework (septiembre de 2025) — CCL v3.0, Manipulación Dañina
- METR — Common Elements of Frontier AI Safety Policies (2025) — comparación entre laboratorios