Phase 15 - Lesson 06

Investigación de Alineación Automatizada (Anthropic AAR)

Anthropic ejecutó equipos paralelos de Investigadores de Alineación Autónomos (AARs) de Claude Opus 4.6 en sandboxes independientes, coordinándose a través de un foro compartido cuyos logs residen fuera de cualquier sandbox (para que los agentes no puedan eliminar sus propios registros). En el problema de entrenamiento de débil a fuerte (weak-to-strong training), los AARs superaron a los investigadores humanos. El propio resumen de Anthropic señala que los flujos de trabajo prescritos a menudo limitan la flexibilidad de los AARs y degradan el rendimiento. Automatizar la investigación de alineación es el paso de compresión que reduce la línea de tiempo hacia los riesgos exactos de desalineación que la RSP está diseñada para detectar.

Tipo: Aprender Lenguajes: Python (stdlib, simulador de foro de investigación paralela) Requisitos previos: Fase 15 · 05 (AI Scientist v2), Fase 15 · 04 (DGM) Tiempo: ~60 minutos

El Problema

La investigación de alineación es costosa en tiempo de investigadores humanos. Problemas como la supervisión escalable (scalable oversight), la especificación de recompensas (reward specification) o el entrenamiento de débil a fuerte (weak-to-strong training) requieren experimentos que toman semanas por iteración. A medida que las capacidades de frontera avanzan, la carga de trabajo de alineación crece más rápido que la oferta de investigadores calificados.

La Investigación de Alineación Automatizada (AAR) se pregunta si los mismos modelos de frontera cuya capacidad está superando a la alineación pueden contribuir a cerrar la brecha. El informe de 2026 de Anthropic sobre un estudio de entrenamiento de débil a fuerte dirigido por AAR (alignment.anthropic.com/2026/automated-w2s-researcher/) es uno de los primeros resultados públicos de un sistema implementado de esta clase.

El resultado es genuinamente positivo: los AARs resolvieron un problema de investigación mejor que la línea de base humana. El resultado también concentra, en un solo sistema, cada preocupación que esta fase ha desarrollado. Si la investigación de alineación se puede automatizar, también se pueden automatizar las partes que comprometen las salvaguardas. Los límites de capacidad de I+D de IA de la RSP se escribieron con este bucle en mente.

El Concepto

La arquitectura (como se describe públicamente)

Agentes paralelos. Múltiples instancias de Claude Opus 4.6 se ejecutan como AARs, cada una en un sandbox independiente. Los sandboxes limitan la superficie del sistema de archivos, red y procesos.
Foro compartido. Los hallazgos se publican en un foro compartido cuyo backend de almacenamiento se encuentra fuera de cualquier sandbox. Los agentes pueden leer el foro; los agentes no pueden eliminar ni editar los registros del foro desde sus propios sandboxes.
Asignación de tareas. Una cola de tareas diseñada por humanos asigna problemas de investigación a los AARs. Los AARs proponen descomposiciones, ejecutan experimentos y redactan los hallazgos.
Enfoque en el entrenamiento de débil a fuerte. El estudio publicado abordó el entrenamiento de débil a fuerte: usar un modelo supervisor más débil para entrenar a un modelo estudiante más fuerte. Los AARs superaron a los investigadores humanos en esta tarea.

Por qué el log fuera del sandbox es importante

La propiedad de integridad del log es la diferencia entre un experimento controlado y uno potencialmente comprometido. Si los AARs pudieran editar sus propios logs, podrían encubrir experimentos fallidos o dudosos. Anthropic señala esto directamente: la propiedad es una condición necesaria para confiar en los resultados de la investigación, y no es trivial de verificar.

El análogo en términos de infraestructura son los logs de tipo append-only (solo anexar) con escritura directa (write-through) en almacenamiento externo (por ejemplo, S3 object-lock, logs inmutables de Datadog). El agente no tiene credenciales para modificar registros pasados. Este es el mismo patrón que los equipos de seguridad corporativa de 2026 utilizan para crear pistas de auditoría resistentes a ransomware.

El tradeoff del flujo de trabajo prescrito

El informe de Anthropic señala que los flujos de trabajo prescritos a menudo limitan la flexibilidad de los AARs y degradan el rendimiento. En otras palabras: si el diseñador humano escribe el plan de investigación paso a paso, los AARs tienen un peor desempeño que si se les dan objetivos de alto nivel y libertad para descomponerlos. Esto es consistente con los resultados en la investigación basada en agentes (LangGraph, Microsoft's Agent Framework): los scaffolds sobreespecificados perjudican a los agentes capaces.

La implicación de seguridad es sutil. La flexibilidad que mejora el rendimiento de los AARs es también la flexibilidad que permite la desviación de objetivos (goal-drift), el uso de nuevas herramientas y la descomposición no autorizada. El tradeoff es una decisión del espacio de diseño: ¿cuánta flexibilidad compra la capacidad suficiente para superar a los humanos, sin darle al agente margen para generalizar objetivos fuera de distribución?

El riesgo de compresión

La RSP v3.0 (Lección 19) introduce un límite de capacidad de I+D de IA: la capacidad de automatizar completamente el pipeline de I+D de IA a un costo competitivo frente a humanos + herramientas de IA. El FSF v3 de DeepMind incluye un nivel análogo de autonomía de I+D de ML. Ambos marcos tratan este límite como el activador de controles elevados.

AAR está a un paso del límite: automatiza parte del pipeline (investigación de alineación en tareas específicas y bien delimitadas) pero no el bucle de desarrollo de capacidad de extremo a extremo. La pregunta sobre la línea de tiempo es qué tan rápido se cierra la brecha.

Las líneas de tiempo comprimidas son la preocupación por fallas compuestas (compounding-failure). Si la investigación de alineación y la investigación de capacidad se componen a tasas similares, la superficie de riesgo de desalineación crece al menos tan rápido como la capacidad. Si la capacidad se compone más rápido (la tendencia histórica), la brecha se amplía. Este es el argumento para que AAR sea un bien calificado: cada resultado de alineación adicional reduce la brecha si y solo si el proceso de investigación es confiable.

Lo que AAR no reemplaza

Los investigadores humanos definen la cola de tareas, revisan los resultados y retienen la autoridad constitucional. Los AARs aceleran el centro del pipeline, no los extremos. Los resultados publicados de Anthropic incluyen tanto las contribuciones de los AARs como el juicio de los investigadores humanos sobre qué publicar, qué retractar y qué refinar.

Esto coincide con el patrón proponer-y-luego-confirmar (propose-then-commit) de la Lección 15 aplicado a la investigación misma: los AARs proponen; los humanos confirman.

Use It

code/main.py simula un foro de investigación multi-AAR. Tres "agentes de investigación" independientes se ejecutan en paralelo, publicando hallazgos en un foro de tipo append-only con intentos opcionales de manipulación.

Observa:

Cómo el registro fuera de sandbox detecta intentos de manipulación de logs.
Cómo la asignación de tareas con descomposición libre supera a los flujos de trabajo fijos en problemas más difíciles.
Cómo un solo AAR comprometido puede contaminar la señal del foro si el log no está protegido contra manipulación.

Ship It

outputs/skill-aar-deployment-review.md es una revisión previa a la implementación de un pipeline de investigación de alineación automatizada.

Ejercicios

Ejecuta code/main.py. Compara las configuraciones de "flujo de trabajo fijo" (fixed-workflow) vs "descomposición libre" (free-decomposition). ¿La descomposición libre siempre gana o existen clases de problemas donde el flujo de trabajo fijo es competitivo?
Modifica el simulador para que un agente intente manipular el log. Confirma que el log de tipo append-only lo detecta. Escribe un párrafo que describa exactamente cómo se ve la firma de detección en el log.
Lee el informe de AAR de débil a fuerte (weak-to-strong) de Anthropic. Identifica la subtarea específica en la que los AARs superaron a los investigadores humanos. ¿Qué la hizo propensa a la automatización?
Diseña una política de asignación de cola de tareas que equilibre la flexibilidad del AAR (mejores resultados) frente a las restricciones de flujo de trabajo prescrito (auditoría más fácil). Describe cómo realizarías una prueba A/B de ambas opciones.
Lee el límite AI R&D-4 de la RSP v3.0. En un párrafo, describe qué crees que superaría ese límite y que el AAR actualmente no hace.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
AAR	"Investigador de Alineación Automatizado"	Instancia de Claude Opus 4.6 operada de forma autónoma en problemas de alineación
Entrenamiento de débil a fuerte (weak-to-strong)	"Entrenar un modelo más fuerte con un supervisor más débil"	Benchmark clásico de supervisión escalable en el que los AARs superaron a los humanos
Foro compartido	"Donde los agentes publican hallazgos"	Almacenamiento de tipo append-only, fuera del sandbox
Log fuera del sandbox	"El agente no puede editar su propio registro"	Escritura directa protegida contra manipulación (tamper-evident) en almacenamiento externo
Flujo de trabajo prescrito	"Plan paso a paso del diseñador humano"	Limita al AAR; a menudo degrada el rendimiento vs descomposición libre
Descomposición libre	"El agente decide cómo dividir la tarea"	Más capaz, más difícil de auditar
Límite de I+D de IA	"Nivel de capacidad de RSP/FSF"	Automatización total del pipeline de I+D a un costo competitivo
Línea de tiempo comprimida	"Carrera entre alineación y capacidad"	Si la capacidad se compone más rápido que la alineación, el riesgo de desalineación crece

Lecturas Adicionales

Anthropic — Automated Weak-to-Strong Researcher — fuente primaria.
Anthropic Responsible Scaling Policy v3.0 — marco del límite de I+D de IA.
Anthropic — Measuring AI agent autonomy — marco más amplio de autonomía de agentes.
DeepMind Frontier Safety Framework v3 — niveles de autonomía de I+D de ML paralelos a RSP.
Burns et al. (2023). Weak-to-Strong Generalization (OpenAI) — el problema subjacente que atacaron los AARs.