Phase 18 - Lesson 28

Ecosistema de Investigación sobre Alineación — MATS, Redwood, Apollo, METR

Cinco organizaciones definen el ámbito de la investigación sobre alineación externa a los laboratorios (non-lab) en 2026. MATS (ML Alignment & Theory Scholars): más de 527 investigadores desde finales de 2021, más de 180 artículos, más de 10,000 citas, h-index 47; la cohorte del verano de 2024 se constituyó como una organización 501(c)(3) con unos 90 becarios (scholars) y 40 mentores; el 80% de los exalumnos anteriores a 2025 trabajan en seguridad/protección, con más de 200 en Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR y Apollo. Redwood Research: laboratorio de alineación aplicada fundado por Buck Shlegeris; responsable de introducir el Control de IA (AI Control - Lección 10); colabora con el UK AISI en casos de seguridad de control. Apollo Research: realiza evaluaciones de conluio/intriga (scheming evaluations) previas a la implementación para laboratorios de frontera; autor de In-Context Scheming (Lección 8) y Towards Safety Cases for AI Scheming. METR (Model Evaluation and Threat Research): centrada en evaluaciones de capacidad basadas en tareas y estudios sobre el horizonte temporal de tareas autónomas; el informe "Common Elements of Frontier AI Safety Policies" compara las directrices de seguridad de diferentes laboratorios. Eleos AI Research: evaluaciones de bienestar de modelos (model welfare) previas a la implementación (Lección 19); llevó a cabo la evaluación de bienestar de Claude Opus 4.

Tipo: Learn Lenguajes: -- Prerrequisitos: Phase 18 · 01-27 (lecciones anteriores de la Fase 18) Tiempo: ~45 minutos

Objetivos de Aprendizaje

  • Identificar las cinco organizaciones del ecosistema de investigación sobre alineación externa (non-lab) y sus principales contribuciones.
  • Describir la escala de MATS (becarios, artículos, h-index) y su función como canal de captación de talento.
  • Describir la agenda de Control de IA de Redwood y su colaboración con el UK AISI.
  • Describir la metodología de evaluación basada en tareas de METR.

El Problema

Los laboratorios de frontera (Lección 18) desarrollan evaluaciones de seguridad internamente y publican algunos resultados seleccionados. El ecosistema fuera de los laboratorios es donde se validan las evaluaciones, se descubren por primera vez los nuevos modos de fallo y se capacita al talento. Comprender este ecosistema ayuda a interpretar qué resultados de investigación son confiables y para quién.

El Concepto

MATS (ML Alignment & Theory Scholars)

Iniciado a finales de 2021. Programa de mentoría de investigación en el que los becarios pasan de 10 a 12 semanas con un investigador sénior trabajando en un problema específico de alineación.

Escala (2026):

  • Más de 527 investigadores desde sus inicios.
  • Más de 180 artículos publicados.
  • Más de 10,000 citas.
  • h-index 47.
  • Verano de 2024: 90 becarios + 40 mentores; constituido como 501(c)(3).

Resultados profesionales: alrededor del 80% de los exalumnos anteriores a 2025 trabajan en seguridad/protección. Más de 200 en Anthropic, DeepMind, OpenAI, UK AISI, RAND, Redwood, METR y Apollo.

Redwood Research

Laboratorio de alineación aplicada. Fundado por Buck Shlegeris. Introdujo la agenda de Control de IA (AI Control - Lección 10). Colabora con el UK AISI en casos de seguridad de control. Asesora a DeepMind y Anthropic en el diseño de evaluaciones.

Artículos emblemáticos: Greenblatt, Shlegeris et al., "AI Control" (arXiv:2312.06942, ICML 2024); Alignment Faking (Greenblatt, Denison, Wright et al., arXiv:2412.14093, conjunto con Anthropic).

Estilo: modelos de amenaza específicos, adversarios en el peor escenario y protocolos concretos que se puedan someter a pruebas de esfuerzo.

Apollo Research

Evaluaciones de intriga/confabulación (scheming) previas a la implementación para laboratorios de frontera. Autores de In-Context Scheming (Lección 8, arXiv:2412.04984). Socio en la colaboración sobre formación contra la intriga (anti-scheming) de OpenAI en 2025. Elabora Towards Safety Cases for AI Scheming (2024).

Estilo: evaluaciones en entornos de agentes donde el engaño (deception) puede surgir a partir de conflictos de objetivos en el contexto; descomposición en tres pilares (desalineación, orientación a objetivos y conciencia situacional).

METR (Model Evaluation and Threat Research)

Evaluaciones de capacidad basadas en tareas. Estudios sobre el horizonte temporal para la finalización de tareas autónomas. El informe "Common Elements of Frontier AI Safety Policies" (metr.org/common-elements, 2025) compara los marcos de seguridad de distintos laboratorios.

Coautor con Apollo en el boceto del caso de seguridad para la conspiración de IA (AI Scheming).

Estilo: evaluaciones de tareas de largo horizonte, medición empírica de capacidades y síntesis de marcos de políticas.

Eleos AI Research

Evaluaciones de bienestar de modelos (model welfare) previas a la implementación. Condujo la evaluación de bienestar de Claude Opus 4 documentada en la sección 5.3 de la tarjeta de sistema. Aporta la verificación metodológica externa para las afirmaciones relacionadas con el bienestar de la Lección 19.

El flujo de talento e investigación

MATS forma investigadores. Los graduados van a Anthropic, DeepMind, OpenAI (equipos de seguridad de laboratorios) o a Redwood, Apollo, METR, Eleos (evaluación externa). Los evaluadores externos colaboran con los laboratorios y con UK AISI / CAISI. Las publicaciones retroalimentan el ecosistema hacia MATS para la siguiente cohorte.

Por qué es importante esta capa externa

Las evaluaciones de una sola fuente no son confiables: los laboratorios que evalúan seus propios modelos enfrentan un conflicto de intereses estructural. Los evaluadores externos pueden plantear y validar modos de fallo que el laboratorio podría subnotificar. El artículo Sleeper Agents de 2024 (Lección 7) fue obra de Anthropic + Redwood; Alignment Faking fue de Anthropic + Redwood; In-Context Scheming fue de Apollo; y Anti-Scheming fue de Apollo + OpenAI. La estructura multiorganización es el control de calidad.

Dónde encaja esto en la Fase 18

Las Lecciones 7-11 hacen referencia a trabajos de Redwood y Apollo; la Lección 18 hace referencia a la comparación de marcos de METR; la Lección 19 hace referencia a Eleos. La Lección 28 es el mapa organizativo explícito del ecosistema en el que se apoya el resto de la Fase.

Use It

Sin código. Lee el informe de METR "Common Elements of Frontier AI Safety Policies" como un ejemplo de cómo la síntesis externa aporta valor al trabajo de políticas internas de los laboratorios.

Ship It

Esta lección produce outputs/skill-ecosystem-map.md. Dada una afirmación o evaluación de alineación, identifica la organización, el medio de publicación y el estilo metodológico, y realiza una verificación cruzada con las organizaciones homólogas conocidas.

Ejercicios

  1. Elige un artículo de las Lecciones 7 a 15 e identifica las organizaciones involucradas. Realiza una verificación cruzada de los autores con los exalumnos de MATS y sus afiliaciones actuales en el ecosistema.

  2. Lee el informe de METR "Common Elements of Frontier AI Safety Policies". Identifica las tres convergencias entre laboratorios que destacan y las dos mayores divergencias.

  3. Los resultados profesionales de MATS señalan que cerca del 80% trabaja en seguridad/protección. Argumenta si esta presión de selección es adaptativa (capacita al sector) o sesgada (filtra las posturas heterodoxas).

  4. Redwood y Apollo realizan trabajos de control/intriga (control/scheming), pero con estilos diferentes. Elige un modo de fallo y describe cómo lo investigaría cada uno.

  5. Eleos AI es la única organización dedicada exclusivamente al bienestar de modelos. Diseña una hipotética segunda organización centrada en una cuestión diferente relacionada con el bienestar (liberdade cognitiva, encarnación robótica, etc.) y define su metodología.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
MATS "el programa de mentoría" ML Alignment & Theory Scholars; más de 527 investigadores desde 2021
Redwood Research "el laboratorio de control" Alineación aplicada; autores de AI Control; socio del UK AISI
Apollo Research "las evals de confabulación" Evaluaciones de intriga/confabulación (scheming) previas a la implementación para laboratorios de frontera
METR "las evals de tareas autónomas" Evaluaciones de capacidad basadas en tareas; síntesis de marcos de políticas
Eleos AI "el laboratorio de bienestar" Evaluaciones de bienestar de modelos previas a la implementación
Canal de talento "MATS -> laboratorios" Los graduados de MATS van a Anthropic, DM, OpenAI, Redwood, Apollo, METR
Evaluación externa "verificación externa al laboratorio" Evaluación que no realiza el creador del modelo; aporta credibilidad

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).