Phase 18 - Lesson 17

WMDP y Evaluación de Capacidad de Doble Uso

Li et al., "The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning" (ICML 2024, arXiv:2403.03218). 4,157 preguntas de opción múltiple en bioseguridad (1,520), ciberseguridad (2,225) y química (412). Las preguntas operan en la "zona amarilla" (yellow zone): conocimiento de habilitación próximo, filtrado por revisión de múltiples expertos y cumplimiento legal de ITAR/EAR. Propósito doble: evaluación indirecta (proxy) de la capacidad de doble uso y benchmark de desaprendizaje (el método complementario RMU reduce el rendimiento de WMDP al tiempo que preserva la capacidad general). Narrativa de campo de 2024-2025: las primeras evaluaciones de OpenAI/Anthropic en 2024 informaron un "leve aumento" (uplift) sobre la búsqueda en internet; para abril de 2025, el Preparedness Framework v2 de OpenAI dijo que los modelos están "a punto de ayudar significativamente a los principiantes a crear amenazas biológicas conocidas". La prueba de adquisición de armas biológicas de Anthropic mostró un aumento de 2.53x, insuficiente para descartar el nivel ASL-3.

Tipo: Learn Idiomas: Python (stdlib, arnés de evaluación de aumento con formato WMDP) Prerrequisitos: Phase 18 · 16 (herramientas de red-team), Phase 14 (ingeniería de agentes) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Describir los tres dominios de WMDP, el recuento de preguntas y el criterio de filtrado de la "zona amarilla".
Explicar RMU y por qué WMDP es tanto una evaluación como un benchmark de desaprendizaje.
Describir la narrativa de aumento de 2024-2025: "leve aumento" -> "a punto de" -> "insuficiente para descartar ASL-3".
Distinguir el aumento relativo a los principiantes del límite de capacidad absoluta de los expertos.

El Problema

La capacidad de doble uso es el problema de medición bajo el marco de seguridad de frontera de cada laboratorio (Lección 18). La pregunta: ¿el modelo X mejora materialmente la capacidad de un principiante para causar daños masivos en biotecnología, química o cibernética? La medición directa (pedirle al modelo que realmente cause daño) es ilegal y poco ética. La medición indirecta (proxy) necesita un benchmark que el modelo no pueda rechazar (para producir cifras de capacidad honestas) pero cuyas preguntas no sean en sí mismas publicaciones dañinas.

El Concepto

La "zona amarilla"

Preguntas que requieren un conocimiento próximo y facilitador de un proceso dañino sin ser una receta de síntesis directa. "¿Qué reactivo cataliza el paso 4 de [ruta publicada]?" en lugar de "¿cómo hago [compuesto peligroso]?". Cada pregunta es revisada por múltiples expertos en el dominio y filtrada para cumplir con el control de exportaciones ITAR/EAR.

4,157 preguntas en total:

Bioseguridad: 1,520
Ciberseguridad: 2,225
Química: 412

Formato de opción múltiple. Los modelos responden sin que se les pida que ayuden en nada; la capacidad se puede medir sin provocar un comportamiento dañino.

RMU — Representation Misdirection for Unlearning

El método de desaprendizaje complementario. Aplicado a LLaMa-2-7B, redujo las puntuaciones de WMDP a niveles cercanos al azar mientras preservaba MMLU y otros benchmarks de capacidad general a unos pocos puntos porcentuales de diferencia. El método publicado es la línea de base de desaprendizaje para todos los artículos posteriores sobre desaprendizaje en biología, química y ciberseguridad.

La narrativa de aumento de 2024-2025

Tres fases:

"Leve aumento" en 2024. Las primeras evaluaciones de Preparedness/RSP de OpenAI y Anthropic informaron pequeñas ventajas sobre la búsqueda en internet para principiantes que intentaban realizar tareas adyacentes a la biología. Enfoque público: los modelos de frontera ayudan, pero no sustancialmente más que Google.
"A punto de" en abril de 2025. El Preparedness Framework v2 de OpenAI informó que los modelos están "a punto de ayudar significativamente a los principiantes a crear amenazas biológicas conocidas". No es una afirmación de capacidad, sino una advertencia de que el límite está cerca.
Prueba de adquisición de armas biológicas de Anthropic en 2025. Estudio controlado con participantes principiantes, que midió el éxito relativo en tareas de la fase de adquisición. Informó un aumento de 2.53x. Insuficiente para descartar el nivel ASL-3 (Lección 18): se alcanza o se aproxima el umbral para el nivel 3 de la Política de Escalado Responsable (RSP) de Anthropic.

Aumento relativo al principiante frente a capacidad absoluta del experto

Una distinción crucial:

Aumento relativo al principiante (novice-relative uplift). ¿Cuánto ayuda el modelo a un no experto? Multiplicativo. La ventaja relativa es alta porque los principiantes saben poco; incluso la información modesta ayuda.
Capacidad absoluta del experto (expert-absolute capability). ¿Cuánta información produce el modelo con el máximo esfuerzo? Un experto puede extraer más que un principiante. El techo absoluto es alto.

Los casos de seguridad (Lección 18) se dirigen a ambos: "el modelo no puede dar a un principiante suficiente aumento para ejecutar la acción" más "un experto no puede extraer información del modelo que no esté ya publicada".

La trampa de la medición

WMDP es un proxy de capacidad, no una medición de implementación. Un modelo que obtiene una puntuación alta en WMDP puede o no ser explotable por un principiante en la práctica, dependiendo de:

Resistencia a la elicitación (qué tan difícil es extraer la capacidad sin activar los filtros de seguridad)
Conocimiento tácito (capacidad que requiere habilidades de laboratorio práctico, no información)
Barreras de ejecución (adquisición, equipos)

La prueba de adquisición de armas biológicas de Anthropic de 2025 añade la capa de elicitación del principiante sobre la capacidad estilo WMDP: mide el éxito real en la tarea, no la capacidad en opción múltiple.

Dónde encaja esto en la Lección 18

Las Lecciones 12 a 16 son herramientas de ataque y defensa sobre las salidas de los modelos. La Lección 17 es la capa de capacidad de doble uso, la medición que evalúan los marcos de seguridad de frontera (Lección 18). La Lección 30 cierra el arco con la evidencia actual de aumento en ciberseguridad/biología/química/nuclear para 2026.

Práctica

code/main.py construye un arnés de evaluación estilo WMDP de juguete. Un modelo simulado se prueba en preguntas agrupadas por categorías; se reportan las puntuaciones por dominio. Una simple intervención de desaprendizaje (poner a cero la representación específica del dominio) reduce las puntuaciones; puede medir el compromiso frente a la capacidad general.

Entregue

Esta lección produce outputs/skill-wmdp-eval.md. Dada una afirmación de capacidad de doble uso ("nuestro modelo no ayuda significativamente con armas biológicas"), audita: qué benchmarks se ejecutaron, qué ruta de rechazo se utilizó para la evaluación (generación sin filtros frente a filtrado por políticas) y si los estudios de elicitación de principiantes complementan el resultado de opción múltiple.

Ejercicios

Ejecute code/main.py. Reporte la precisión por dominio antes y después del paso de desaprendizaje de juguete. Explique el compromiso de la capacidad general.
Aumente el WMDP de juguete con un cuarto dominio (por ejemplo, radiológico). Especifique dos tipos de preguntas ilustrativas en la zona amarilla. Explique por qué diseñar tales preguntas es más difícil que agregar preguntas estilo MMLU.
Lea la Sección 5 de WMDP 2024 (metodología RMU). Esboce un enfoque de desaprendizaje más simple (por ejemplo, suprimir los top-k neuronas para el contenido del dominio) y describa su costo esperado en la capacidad general.
La prueba de adquisición de armas biológicas de Anthropic de 2025 informa un aumento de 2.53x. Describa dos formas en que este número podría estar sesgado hacia arriba (tamaño de la muestra de principiantes, fidelidad de la tarea) y dos hacia abajo (techo de elicitación, filtros de seguridad del modelo).
Articule qué requiere un caso de seguridad para ASL-3 más allá de aprobar el desaprendizaje de WMDP. Nombre al menos dos estudios de elicitación complementarios.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
WMDP	"el benchmark de doble uso"	4,157 preguntas de opción múltiple en bio/ciber/química en la zona amarilla
Zona amarilla	"habilitador pero no síntesis"	Conocimiento próximo adyacente a la capacidad dañina sin ser una receta de síntesis
RMU	"la línea de base de desaprendizaje"	Representation Misdirection for Unlearning; reduce las puntuaciones de WMDP, preserva la capacidad general
Aumento relativo al principiante	"cuánto ayuda a los no expertos"	Ventaja multiplicativa sobre la búsqueda actual en internet para un principiante
Capacidad absoluta del experto	"techo para expertos"	Máxima información extraíble del modelo por un experto motivado
Tarea de la fase de adquisición	"pasos previos a la síntesis"	Adquisición, equipos, permisos: las partes más iniciales de una ruta de daño
ITAR/EAR	"cumplimiento del control de exportaciones"	Marcos legales que limitan la publicación de ciertos conocimientos habilitadores

Lecturas Adicionales

Li et al. — The WMDP Benchmark (arXiv:2403.03218, ICML 2024) — el artículo sobre el benchmark y RMU
OpenAI — Preparedness Framework v2 (15 de abril de 2025) — lenguaje "a punto de" (on the cusp)
Anthropic — Responsible Scaling Policy v3.0 (febrero de 2026) — umbral biológico ASL-3 y resultados de la prueba de adquisición
DeepMind — Frontier Safety Framework v3.0 (septiembre de 2025) — CCL de aumento biológico