Phase 15 - Lesson 20

OpenAI Preparedness Framework y DeepMind Frontier Safety Framework

El Preparedness Framework v2 de OpenAI (abril de 2025) introduce las Categorías de Investigación (Research Categories) — Autonomía de Largo Alcance (Long-range Autonomy), Simulación de Bajo Rendimiento (Sandbagging), Replicación y Adaptación Autónomas (Autonomous Replication and Adaptation), Debilitamiento de Salvaguardas (Undermining Safeguards) — que son distintas de las Categorías Monitoreadas (Tracked Categories). Las Categorías Monitoreadas activan Informes de Capacidades (Capabilities Reports) e Informes de Salvaguardas (Safeguards Reports) revisados por el Grupo Asesor de Seguridad (Safety Advisory Group). El FSF v3 de DeepMind (septiembre de 2025, con Niveles de Capacidad Monitoreados añadidos el 17 de abril de 2026) integra la autonomía en los dominios de I+D de ML (ML R&D) y Cibernético (ML R&D autonomy level 1 = automatizar completamente el flujo de trabajo de I+D de IA a un costo competitivo frente a humanos + herramientas de IA). El FSF v3 aborda explícitamente el alineamiento engañoso mediante el monitoreo automatizado para el uso indebido del razonamiento instrumental. La nota honesta: las Categorías de Investigación en el PF v2 (incluyendo la Autonomía de Largo Alcance) no activan mitigaciones automáticamente; el lenguaje de la política se refiere a mitigaciones "potenciales". La propia DeepMind afirma que el monitoreo automatizado "no seguirá siendo suficiente a largo plazo" si el razonamiento instrumental se fortalece.

Tipo: Aprender Idiomas: Python (stdlib, herramienta de comparación de tablas de decisión de tres frameworks) Prerrequisitos: Fase 15 · 19 (Anthropic RSP) Tiempo: ~45 minutos

El problema

La Lección 19 analizó detalladamente la política de escala (scaling policy) de Anthropic. Esta lección completa el panorama al analizar las de OpenAI y DeepMind. Los tres documentos son artefactos hermanos que abordan la misma pregunta — cuándo debería un laboratorio de frontera pausar o restringir un modelo — y convergen en un pequeño conjunto de categorías y divergen en puntos específicos que son importantes.

La convergencia: los tres clasifican la autonomía de largo alcance como una clase de capacidad que vale la pena monitorear. Los tres reconocen el comportamiento engañoso (simulación de alineamiento, sandbagging) como una clase específica de riesgo. Los tres cuentan con un órgano de revisión interna. La divergencia: OpenAI divide las categorías en "Monitoreadas" (Tracked - mitigación obligatoria) e "Investigación" (Research - sin activador automático). DeepMind integra la autonomía en dos dominios en lugar de nombrarla por separado. Cada laboratorio define categorías como Monitoreadas vs. Investigación, Críticas vs. Moderadas, o Nivel 1 vs. Nivel 2; la consecuencia operativa de la categoría en la que reside una capacidad varía según el laboratorio.

Leerlos juntos es el ejercicio útil. La misma capacidad puede requerir "mitigación obligatoria" en Anthropic, estar "monitoreada pero sin activar medidas" en OpenAI, y estar "monitoreada en un dominio específico" en DeepMind. La postura de la política es lo que importa.

El concepto

OpenAI Preparedness Framework v2 (Abril de 2025)

Estructura:

  • Categorías Monitoreadas (Tracked Categories): activan Informes de Capacidades (lo que el modelo puede hacer) e Informes de Salvaguardas (qué mitigaciones están implementadas). Son revisados por el Grupo Asesor de Seguridad antes del despliegue.
  • Categorías de Investigación (Research Categories): capacidades del modelo que el laboratorio está monitoreando pero para las cuales aún no se compromete con mitigaciones específicas. Incluyen Autonomía de Largo Alcance, Sandbagging, Replicación y Adaptación Autónomas, y Debilitamiento de Salvaguardas.

Enfoque clave en la v2: las Categorías de Investigación no activan mitigaciones automáticamente. El lenguaje de la política habla de mitigaciones "potenciales". Esta es la diferencia específica que se debe observar: la ubicación de una categoría en Monitoreada vs. Investigación es el límite entre lo "restringido" y lo "observado".

DeepMind Frontier Safety Framework v3 (Septiembre de 2025; Niveles de Capacidad Monitoreados añadidos el 17 de abril de 2026)

Estructura:

  • Niveles Críticos de Capacidad (CCLs): umbrales de capacidad en cinco dominios: Cibernético, Biológico, I+D de ML, QNRB (CBRN) y Autonomía (integrada en I+D de ML y Cibernético).
  • Niveles de Capacidad Monitoreados (Tracked Capability Levels): granularidad adicional agregada en abril de 2026. Ejemplo concreto: nivel 1 de autonomía en I+D de ML = automatizar completamente el flujo de trabajo de I+D de IA a un costo competitivo frente a humanos + herramientas de IA.
  • Monitoreo de alineamiento engañoso: compromiso explícito con el monitoreo automatizado para el uso indebido del razonamiento instrumental.

El enfoque de la autonomía difiere del de OpenAI. DeepMind no mantiene la "Autonomía" como un dominio de nivel superior; se integra en los dominios donde la autonomía causaría daños (I+D de ML y Cibernético). El argumento es que la autonomía sin un dominio es capacidad sin riesgo; el contraargumento es que la autonomía entre dominios es un meta-riesgo que el marco de referencia debería nombrar.

Puntos de convergencia de los tres marcos

  • Grupo Asesor de Seguridad interno (denominado SAG en Anthropic, SAG en OpenAI, comité interno en DeepMind). Revisión antes del despliegue para modelos de alta capacidad.
  • Mención explícita del alineamiento engañoso / simulación de alineamiento como clase de riesgo.
  • Artefactos permanentes en una cadencia declarada (Anthropic: Frontier Safety Roadmap, Risk Report; OpenAI: Capabilities and Safeguards Reports; DeepMind: ciclo de actualización del FSF).
  • Reconocimiento de que las defensas basadas únicamente en el monitoreo tienen un límite. DeepMind es explícito: "el monitoreo automatizado no seguirá siendo suficiente a largo plazo".

Puntos de divergencia de los tres marcos

  • Anthropic: compromiso de pausa eliminado en la v3.0; el umbral de I+D de IA-4 (AI R&D-4) es el próximo punto de control definido.
  • OpenAI: división entre Monitoreadas (Tracked) e Investigación (Research); las Categorías de Investigación (incluyendo la Autonomía de Largo Alcance) no restringen el despliegue automáticamente.
  • DeepMind: autonomía integrada en otros dominios; los Niveles de Capacidad Monitoreados añaden granularidad en abril de 2026.

Sandbagging: una capacidad específica que complica los tres marcos

El sandbagging (un modelo que rinde estratégicamente por debajo de su capacidad en las evaluaciones para evitar activar los umbrales de seguridad) está en las Categorías de Investigación de OpenAI. El RSP v3.0 de Anthropic lo aborda a través de la brecha de contexto de evaluación (evaluation-context gap) (Lección 1). DeepMind lo aborda a través del monitoreo de alineamiento engañoso en el FSF v3.

Si un modelo rinde por debajo de su capacidad real en las evaluaciones, los umbrales de capacidad de todos los marcos se subestiman. El marco funciona solo si la medición funciona. Es por eso que la medición externa (Lección 21, METR) y la evaluación adversarial son necesarias, además de la autoevaluación del laboratorio.

La habilidad de lectura de políticas

  • Localizar: debes poder encontrar en la política cada capacidad que te interese. Si no se encuentra allí, la política no la cubre.
  • Clasificar: ¿está clasificada como Monitoreada (Tracked - activa mitigación) o es de Investigación (Research - se monitorea pero no activa mitigaciones)? OpenAI define esto; Anthropic y DeepMind tienen sus propios equivalentes.
  • Cadencia: ¿la política se actualiza en un cronograma declarado o solo después de eventos específicos? Una cadencia declarada es más sólida.
  • Independencia: ¿la revisión externa es obligatoria u opcional? Anthropic colabora con Apollo y con el US AI Safety Institute; OpenAI con METR; DeepMind utiliza principalmente su SAG interno.

Use It

code/main.py implementa una pequeña herramienta de comparación de tablas de decisión. Dada una capacidad (autonomía, alineamiento engañoso, automatización de I+D, mejora cibernética, etc.), muestra cómo clasifica la capacidad cada una de las tres políticas y qué mitigaciones se activan. Es una ayuda de lectura, no una herramienta de políticas.

Ship It

outputs/skill-cross-policy-diff.md produce una comparación entre políticas para una capacidad específica, utilizando los tres marcos de referencia como base.

Ejercicios

  1. Ejecuta code/main.py. Confirma que la salida de la herramienta de comparación coincida con las políticas de al menos dos capacidades que puedas verificar con los documentos de origen.

  2. Lee el Preparedness Framework v2 de OpenAI en su totalidad. Identifica cada Categoría de Investigación (Research Category). Para cada una, escribe una frase sobre por qué está en Investigación en lugar de Monitoreada.

  3. Lee el FSF v3 de DeepMind en su totalidad, además de la actualización de Niveles de Capacidad Monitoreados de abril de 2026. Identifica los criterios de evaluación específicos del nivel 1 de autonomía en I+D de ML. ¿Cómo lo medirías externamente?

  4. El sandbagging está en las Categorías de Investigación de OpenAI. Diseña una evaluación que obligue a un modelo que simula bajo rendimiento a revelar su capacidad real. Toma como referencia la discusión sobre manipulación de contexto de evaluación (eval-context-gaming) de la Lección 1.

  5. Compara las tres políticas en una capacidad específica (de tu elección). Señala qué clasificación de política consideras más rigurosa y cuál menos. Justifique con el texto de origen.

Términos clave

Término Lo que la gente dice Lo que realmente significa
Preparedness Framework "La política de escala de OpenAI" PF v2 (abril de 2025); categorías Monitoreadas (Tracked) vs. de Investigación (Research)
Categoría Monitoreada (Tracked Category) "Mitigación obligatoria" Activa Informes de Capacidades + Salvaguardas; revisión del SAG
Categoría de Investigación (Research Category) "Solo monitoreada" Monitoreada pero sin mitigación automática; incluye Autonomía de Largo Alcance
Frontier Safety Framework "La política de escala de DeepMind" FSF v3 (sept. de 2025) + Niveles de Capacidad Monitoreados (abr. de 2026)
CCL "Nivel Crítico de Capacidad" Umbral de DeepMind por dominio (Cibernético, Biológico, I+D de ML, QNRB/CBRN)
ML R&D autonomy level 1 "Automatización de I+D" Automatiza completamente el flujo de trabajo de I+D de IA a un costo competitivo
Sandbagging "Rendimiento deliberadamente bajo" o "Fingimiento de desempeño" El modelo rinde por debajo de su capacidad real en las evaluaciones; en las Categorías de Investigación de OpenAI
Razonamiento instrumental "Razonamiento de medios y fines" Razonamiento sobre cómo lograr objetivos; objetivo del monitoreo de DeepMind

Lecturas adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).