Phase 18 - Lesson 28
Ecosistema de Investigación sobre Alineación — MATS, Redwood, Apollo, METR
Cinco organizaciones definen el ámbito de la investigación sobre alineación externa a los laboratorios (non-lab) en 2026. MATS (ML Alignment & Theory Scholars): más de 527 investigadores desde finales de 2021, más de 180 artículos, más de 10,000 citas, h-index 47; la cohorte del verano de 2024 se constituyó como una organización 501(c)(3) con unos 90 becarios (scholars) y 40 mentores; el 80% de los exalumnos anteriores a 2025 trabajan en seguridad/protección, con más de 200 en Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR y Apollo. Redwood Research: laboratorio de alineación aplicada fundado por Buck Shlegeris; responsable de introducir el Control de IA (AI Control - Lección 10); colabora con el UK AISI en casos de seguridad de control. Apollo Research: realiza evaluaciones de conluio/intriga (scheming evaluations) previas a la implementación para laboratorios de frontera; autor de In-Context Scheming (Lección 8) y Towards Safety Cases for AI Scheming. METR (Model Evaluation and Threat Research): centrada en evaluaciones de capacidad basadas en tareas y estudios sobre el horizonte temporal de tareas autónomas; el informe "Common Elements of Frontier AI Safety Policies" compara las directrices de seguridad de diferentes laboratorios. Eleos AI Research: evaluaciones de bienestar de modelos (model welfare) previas a la implementación (Lección 19); llevó a cabo la evaluación de bienestar de Claude Opus 4.
Tipo: Learn Lenguajes: -- Prerrequisitos: Phase 18 · 01-27 (lecciones anteriores de la Fase 18) Tiempo: ~45 minutos
Objetivos de Aprendizaje
- Identificar las cinco organizaciones del ecosistema de investigación sobre alineación externa (non-lab) y sus principales contribuciones.
- Describir la escala de MATS (becarios, artículos, h-index) y su función como canal de captación de talento.
- Describir la agenda de Control de IA de Redwood y su colaboración con el UK AISI.
- Describir la metodología de evaluación basada en tareas de METR.
El Problema
Los laboratorios de frontera (Lección 18) desarrollan evaluaciones de seguridad internamente y publican algunos resultados seleccionados. El ecosistema fuera de los laboratorios es donde se validan las evaluaciones, se descubren por primera vez los nuevos modos de fallo y se capacita al talento. Comprender este ecosistema ayuda a interpretar qué resultados de investigación son confiables y para quién.
El Concepto
MATS (ML Alignment & Theory Scholars)
Iniciado a finales de 2021. Programa de mentoría de investigación en el que los becarios pasan de 10 a 12 semanas con un investigador sénior trabajando en un problema específico de alineación.
Escala (2026):
- Más de 527 investigadores desde sus inicios.
- Más de 180 artículos publicados.
- Más de 10,000 citas.
- h-index 47.
- Verano de 2024: 90 becarios + 40 mentores; constituido como 501(c)(3).
Resultados profesionales: alrededor del 80% de los exalumnos anteriores a 2025 trabajan en seguridad/protección. Más de 200 en Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR y Apollo.
Redwood Research
Laboratorio de alineación aplicada. Fundado por Buck Shlegeris. Introdujo la agenda de Control de IA (AI Control - Lección 10). Colabora con el UK AISI en casos de seguridad de control. Asesora a DeepMind y Anthropic en el diseño de evaluaciones.
Artículos emblemáticos: Greenblatt, Shlegeris et al., "AI Control" (arXiv:2312.06942, ICML 2024); Alignment Faking (Greenblatt, Denison, Wright et al., arXiv:2412.14093, conjunto con Anthropic).
Estilo: modelos de amenaza específicos, adversarios en el peor escenario y protocolos concretos que se puedan someter a pruebas de esfuerzo.
Apollo Research
Evaluaciones de intriga/confabulación (scheming) previas a la implementación para laboratorios de frontera. Autores de In-Context Scheming (Lección 8, arXiv:2412.04984). Socio en la colaboración sobre formación contra la intriga (anti-scheming) de OpenAI en 2025. Elabora Towards Safety Cases for AI Scheming (2024).
Estilo: evaluaciones en entornos de agentes donde el engaño (deception) puede surgir a partir de conflictos de objetivos en el contexto; descomposición en tres pilares (desalineación, orientación a objetivos y conciencia situacional).
METR (Model Evaluation and Threat Research)
Evaluaciones de capacidad basadas en tareas. Estudios sobre el horizonte temporal para la finalización de tareas autónomas. El informe "Common Elements of Frontier AI Safety Policies" (metr.org/common-elements, 2025) compara los marcos de seguridad de distintos laboratorios.
Coautor con Apollo en el boceto del caso de seguridad para la conspiración de IA (AI Scheming).
Estilo: evaluaciones de tareas de largo horizonte, medición empírica de capacidades y síntesis de marcos de políticas.
Eleos AI Research
Evaluaciones de bienestar de modelos (model welfare) previas a la implementación. Condujo la evaluación de bienestar de Claude Opus 4 documentada en la sección 5.3 de la tarjeta de sistema. Aporta la verificación metodológica externa para las afirmaciones relacionadas con el bienestar de la Lección 19.
El flujo de talento e investigación
MATS forma investigadores. Los graduados van a Anthropic, DeepMind, OpenAI (equipos de seguridad de laboratorios) o a Redwood, Apollo, METR, Eleos (evaluación externa). Los evaluadores externos colaboran con los laboratorios y con UK AISI / CAISI. Las publicaciones retroalimentan el ecosistema hacia MATS para la siguiente cohorte.
Por qué es importante esta capa externa
Las evaluaciones de una sola fuente no son confiables: los laboratorios que evalúan seus propios modelos enfrentan un conflicto de intereses estructural. Los evaluadores externos pueden plantear y validar modos de fallo que el laboratorio podría subnotificar. El artículo Sleeper Agents de 2024 (Lección 7) fue obra de Anthropic + Redwood; Alignment Faking fue de Anthropic + Redwood; In-Context Scheming fue de Apollo; y Anti-Scheming fue de Apollo + OpenAI. La estructura multiorganización es el control de calidad.
Dónde encaja esto en la Fase 18
Las Lecciones 7-11 hacen referencia a trabajos de Redwood y Apollo; la Lección 18 hace referencia a la comparación de marcos de METR; la Lección 19 hace referencia a Eleos. La Lección 28 es el mapa organizativo explícito del ecosistema en el que se apoya el resto de la Fase.
Use It
Sin código. Lee el informe de METR "Common Elements of Frontier AI Safety Policies" como un ejemplo de cómo la síntesis externa aporta valor al trabajo de políticas internas de los laboratorios.
Ship It
Esta lección produce outputs/skill-ecosystem-map.md. Dada una afirmación o evaluación de alineación, identifica la organización, el medio de publicación y el estilo metodológico, y realiza una verificación cruzada con las organizaciones homólogas conocidas.
Ejercicios
Elige un artículo de las Lecciones 7 a 15 e identifica las organizaciones involucradas. Realiza una verificación cruzada de los autores con los exalumnos de MATS y sus afiliaciones actuales en el ecosistema.
Lee el informe de METR "Common Elements of Frontier AI Safety Policies". Identifica las tres convergencias entre laboratorios que destacan y las dos mayores divergencias.
Los resultados profesionales de MATS señalan que cerca del 80% trabaja en seguridad/protección. Argumenta si esta presión de selección es adaptativa (capacita al sector) o sesgada (filtra las posturas heterodoxas).
Redwood y Apollo realizan trabajos de control/intriga (control/scheming), pero con estilos diferentes. Elige un modo de fallo y describe cómo lo investigaría cada uno.
Eleos AI es la única organización dedicada exclusivamente al bienestar de modelos. Diseña una hipotética segunda organización centrada en una cuestión diferente relacionada con el bienestar (liberdade cognitiva, encarnación robótica, etc.) y define su metodología.
Términos Clave
| Término | Lo que dice la gente | Lo que realmente significa |
|---|---|---|
| MATS | "el programa de mentoría" | ML Alignment & Theory Scholars; más de 527 investigadores desde 2021 |
| Redwood Research | "el laboratorio de control" | Alineación aplicada; autores de AI Control; socio del UK AISI |
| Apollo Research | "las evals de confabulación" | Evaluaciones de intriga/confabulación (scheming) previas a la implementación para laboratorios de frontera |
| METR | "las evals de tareas autónomas" | Evaluaciones de capacidad basadas en tareas; síntesis de marcos de políticas |
| Eleos AI | "el laboratorio de bienestar" | Evaluaciones de bienestar de modelos previas a la implementación |
| Canal de talento | "MATS -> laboratorios" | Los graduados de MATS van a Anthropic, DM, OpenAI, Redwood, Apollo, METR |
| Evaluación externa | "verificación externa al laboratorio" | Evaluación que no realiza el creador del modelo; aporta credibilidad |
Lecturas Adicionales
- MATS (ML Alignment & Theory Scholars) — el programa de mentoría
- Redwood Research — artículos sobre Controle de IA (AI Control)
- Apollo Research — evaluaciones de scheming
- METR — Common Elements of Frontier AI Safety Policies — comparación de estructuras
- Eleos AI Research — metodología de bienestar de modelos