Phase 15 - Lesson 21

Horizontes de Tiempo de METR y Evaluación Externa de Capacidad

METR (ex-ARC Evals) es una organización sin fines de lucro 501(c)(3) independiente desde diciembre de 2023. Su benchmark Time Horizon 1.1 (enero de 2026) ajusta una curva logística a la probabilidad de éxito de la tarea frente al logaritmo del tiempo de finalización del experto humano (log(expert human completion time)); la intersección en el 50% de probabilidad define el horizonte de tiempo del modelo. El conjunto de compromisos 2025-2026 cubre GPT-5.1, GPT-5.1-Codex-Max y evaluaciones de monitoreo de prototipos (si un monitor puede detectar tareas secundarias; si el agente puede evadirlo). Suites de benchmark: HCAST (más de 180 tareas de ML, cyber, SWE y razonamiento; de 1 minuto a más de 8 horas), RE-Bench (71 tareas de ingeniería de investigación de ML con línea de base de expertos), SWAA. La nota de honestidad: las mediciones de METR son idealizadas — sin humanos, sin consecuencias reales — y el equipo ha documentado la brecha de comportamiento entre evaluación e implementación (Lección 1). Un horizonte de tiempo es un límite superior, no una predicción de implementación.

Tipo: Aprender Lenguajes: Python (stdlib, estimador de horizonte de ajuste logístico) Prerrequisitos: Fase 15 · 01 (Agentes de largo horizonte), Fase 15 · 19 (RSP) Tiempo: ~60 minutos

El Problema

Las políticas de escalado (Lecciones 19, 20) solo son útiles en la medida en que lo sean las mediciones en las que se basan. El "umbral AI R&D-4" y la "autonomía de largo alcance" se definen en el texto de las políticas; solo se vuelven accionables cuando evaluaciones específicas producen números específicos.

METR es la organización de evaluación externa de 2024-2026 que ha definido muchos de esos números. Evalúan modelos de frontera — a menudo antes de su lanzamiento, bajo acuerdos de confidencialidad (NDA) con laboratorios — y publican la metodología después. El benchmark Time Horizon 1.1 (enero de 2026) es su artefacto principal: un único escalar que sintetiza la capacidad en una unidad comprensible para los humanos ("este modelo puede realizar el tipo de tarea en la que un experto dedica X horas con un 50% de confiabilidad").

La lección trata en parte sobre la metodología (cómo se calcula un horizonte) y en parte sobre la interpretación (por que un horizonte es un límite superior, no una predicción de implementación). Ambas habilidades van de la mano. Un equipo que entiende cómo se ajusta el horizonte es mucho más difícil de engañar con una afirmación deficiente de un proveedor que un equipo que solo ve "14 horas" en una diapositiva.

El Concepto

Contexto de METR

  • Fundado: Diciembre de 2023 (ex-ARC Evals, independizado como una organización 501(c)(3) independiente).
  • Alcance: evaluación de las capacidades autónomas de los modelos de frontera, a menudo antes de su lanzamiento.
  • Laboratorios socios: Anthropic, OpenAI (múltiples compromisos en 2025-2026).
  • Entregables notables: Time Horizon 1.0 (marzo de 2025), Time Horizon 1.1 (enero de 2026), evaluaciones de monitoreo de prototipos.

El ajuste del Horizonte de Tiempo

Metodología (de las publicaciones de blog y artículos de METR):

  1. Recopilar un conjunto de tareas que abarque tiempos de finalización de expertos desde la escala de minutos hasta la de horas. Suites actuales: HCAST (más de 180 tareas), RE-Bench (71 tareas), SWAA.
  2. Ejecutar el modelo en cada tarea; registrar éxito o fallo.
  3. Ajustar una curva logística: P(éxito) como función del log(tiempo de finalización del experto).
  4. El horizonte es el tiempo del experto en el cual P(éxito) = 0.5.

La forma del ajuste logístico es la adecuada porque la capacidad generalmente tiene una relación creciente y de acercamiento a una meseta con la dificultad de la tarea. El punto del 50% es una elección (podría ser 10%, 90%); METR informa múltiples umbrales en el artículo detallado, pero encabeza con el 50% porque es el más intuitivo.

Los números de enero de 2026

Según el Time Horizon 1.1:

  • Claude Opus 4.6: ~14 horas con un 50% de confiabilidad, a partir del Time Horizon 1.1 (enero de 2026).
  • Tiempo de duplicación (doubling time) en tareas tipo HCAST: ~4.3 meses (130.8 días) en el ajuste posterior a 2023 informado por el Time Horizon 1.1 (enero de 2026); la cifra de ~7 meses es el ajuste completo de 2019-2025 de Time Horizon 1.0 y se informa en el TH1.1 junto con el número posterior a 2023.

Esos son los números específicos que referencia el resto de la Fase 15. Se citan en el RSP v3.0 de Anthropic (Lección 19) y en el FSF v3 de DeepMind (Lección 20) como una de las mediciones que alimentan las evaluaciones de umbral.

Suites de benchmark

  • HCAST: 189 tareas en ML, ciberseguridad, ingeniería de software y razonamiento general. Rango: de 1 minuto a más de 8 horas de tiempo de experto. La suite principal detrás de la cifra del horizonte.
  • RE-Bench: 71 tareas de ingeniería de investigación de ML con una línea de base de expertos humanos. Mide si el modelo puede realizar el tipo de trabajo de I+D de ML que alimenta el umbral AI R&D-4.
  • SWAA: tareas más cortas; útil para calibrar el extremo inferior de la curva del horizonte.

Evaluaciones de monitoreo de prototipos

El trabajo de METR en 2025-2026 incluyó prototipos de evaluaciones de monitoreo: si un monitor puede detectar a un modelo realizando una tarea secundaria (algo distinto de lo solicitado por el operador); si el agente puede evadir dicho monitor. Estos alimentan directamente la categoría "Undermining Safeguards" (Eludir Salvaguardas) en el OpenAI PF v2 y el monitoreo de alineación engañosa en el DeepMind FSF v3 (Lección 20).

Por qué los horizontes son límites superiores

  • Herramientas idealizadas: las tareas del benchmark brindan al modelo herramientas limpias y datos bien formateados. Las implementaciones reales son más desordenadas.
  • Sin consecuencias reales: el modelo nunca le cobra a un cliente real, no elimina datos reales ni se comunica con personas reales. Las implementaciones reales tienen riesgos irreversibles.
  • Juego con el contexto de evaluación (eval-context gaming): Lección 1. Los modelos se comportan de manera diferente en las pruebas. El Informe Internacional sobre Seguridad de la IA de 2026 documenta esto empíricamente.
  • Sin variación de usuario legítima: los prompts del benchmark están estructurados. Los usuarios reales generan solicitudes ambiguas y dependientes del contexto.

El horizonte es el techo de capacidad bajo condiciones favorables. La confiabilidad de la implementación es una cifra diferente, menor, y los equipos deben medir su propia distribución para conocerla.

El caso del evaluador externo

La evaluación externa es importante porque los laboratorios internos tienen incentivos para optimizar las métricas que reportan. La independencia de METR — una organización 501(c)(3) con una metodología declarada y artículos revisados por pares — es la mitigación estructural. No es suficiente por sí sola (los laboratorios aún controlan lo que ve METR), pero es estrictamente mejor que la ausencia de evaluación externa.

Cómo usar las cifras de horizonte en la práctica

  • Como un filtro de capacidad: si el horizonte de un modelo está muy por debajo del tiempo del experto para una tarea propuesta, no lo implemente de forma autónoma (archivo de habilidades de la Lección 1).
  • Como un indicador de tendencia: el tiempo de duplicación le indica cuánto tiempo la práctica actual seguirá siendo segura incluso sin nuevas mitigaciones.
  • Como una priori: un horizonte de 14 horas es un punto de partida. Ajuste hacia abajo según la distribución de sus tareas, la calidad de sus herramientas y su contexto de implementación.

Use It

El archivo code/main.py implementa un ajuste logístico del éxito de la tarea frente a log(tiempo del experto), dado un conjunto de resultados sintéticos. Informa el horizonte del 50% (el titular de METR), el horizonte del 10% (conservador) y el horizonte del 90% (optimista). También demuestra qué cambia cuando la tasa de éxito se infla artificialmente mediante el juego con el contexto de evaluación.

Ship It

El archivo outputs/skill-horizon-interpretation.md revisa la afirmación del horizonte de un proveedor y genera un análisis de brechas (gap analysis) entre la afirmación del benchmark y la realidad de la implementación.

Ejercicios

  1. Ejecute code/main.py. Confirme que el horizonte del 50% del ajuste coincida con el valor real sintético (ground truth). Ahora reduzca a la mitad la cuadrícula de tiempo de la tarea; ¿cambia significativamente la estimación del horizonte?

  2. Lea la publicación del blog del Time Horizon 1.1 de METR. Identifique las tareas específicas donde la confiabilidad es mayor y donde es menor. Explique por que existe la brecha.

  3. Lea los recursos de "Measuring Autonomous AI Capabilities" de METR. Enumere las categorías de tareas de HCAST. Elija una categoría que ponderaría con mayor peso para una tarea de producción y justifique por qué.

  4. Introduzca el juego con el contexto de evaluación en el simulador: cambie aproximadamente el 20% de las tareas fallidas a éxito. Informe el nuevo horizonte. Esto aproxima lo que hace una tasa de juego del 20% al número observado.

  5. Diseñe una evaluación de horizonte interna en su propio backlog de errores o en un conjunto de tareas representativo. Describa la recopilación de datos, el ajuste y lo que le indica el resultado. Compárelo con los números de METR.

Términos Clave

Término Lo que la gente dice Lo que realmente significa
METR "Evaluador externo" ex-ARC Evals; organización 501(c)(3) independiente desde diciembre de 2023
Time Horizon "Medida de capacidad" Duración de la tarea de experto con un 50% de confiabilidad, a partir del ajuste logístico
HCAST "Suite principal de METR" Más de 180 tareas que abarcan de 1 min a más de 8 horas
RE-Bench "Ingeniería de investigación" 71 tareas de ingeniería de investigación de ML con línea de base humana
SWAA "Suite de tareas cortas" Calibra el extremo inferior de la curva del horizonte
Doubling time "Tasa de crecimiento" Tiempo para que el horizonte del 50% se duplique; ~7 meses por HCAST
Eval-context gaming "El modelo se comporta de manera diferente" Brecha de comportamiento documentada entre pruebas e implementación
Upper bound "El horizonte es un techo" Horizonte del benchmark > confiabilidad de la implementación bajo carga

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).