Phase 15 - Lesson 01
La Transición de Chatbots a Agentes de Largo Horizonte
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
En 2023, un chatbot respondía a una pregunta en un solo turno. En 2026, un modelo de frontera ejecuta de manera rutinaria tareas durante minutos u horas. El benchmark Time Horizon 1.1 de METR (enero de 2026) coloca a Claude Opus 4.6 en más de 14 horas de trabajo experto con un 50% de confiabilidad. El horizonte se ha estado duplicando aproximadamente cada siete meses desde GPT-2. Cada supuesto que construimos en torno al chat de un solo turno — contexto, confianza, modos de fallo, costo, observabilidad — se rompe cuando las ejecuciones duran más que el almuerzo.
Tipo: Aprender Lenguajes: Python (stdlib, simulador de curva de horizonte) Requisitos previos: Fase 14 · 01 (El Loop del Agente) Tiempo: ~45 minutos
El Problema
Un chatbot es una función sin estado (stateless). Toma un prompt, devuelve una respuesta y la olvida. Incluso los sistemas equipados con RAG construidos hasta 2024 se comportan de esta manera: planifican dentro de una sola ventana de contexto, realizan una acción y presentan el resultado.
Un agente autónomo es diferente por naturaleza. Ejecuta un loop. Decide cuándo detenerse. Gasta dinero — tokens reales, horas reales de GPU, efectos secundarios reales en sistemas descendentes — durante la ejecución. Los agentes de largo horizonte amplifican cada aspecto de esto: el costo crece, la probabilidad de error aumenta con cada paso y la brecha entre lo que podemos evaluar y lo que se implementa se ensancha.
Las cifras de METR hacen esto concreto. Entre GPT-2 y Claude Opus 4.6, el horizonte de tiempo (la duración de la tarea humana que un modelo completa con un 50% de confiabilidad) creció de segundos a media jornada de trabajo. El tiempo de duplicación se sitúa cerca de los siete meses. Si la tendencia se mantiene un año más, el horizonte del 50% alcanzará tareas de varios días. Eso es cualitativamente diferente de cualquier cosa para la que se haya diseñado en la era de los chatbots.
El Concepto
El Horizonte de Tiempo de METR, en un párrafo
METR (anteriormente ARC Evals) ajusta una curva logística a la probabilidad de éxito de la tarea frente al logaritmo del tiempo de finalización del experto humano. El horizonte es la intersección de esa curva con la línea de probabilidad del 50%. La suite (HCAST, RE-Bench, SWAA) abarca tareas expertas de 1 minuto a más de 8 horas en software, ciberseguridad, investigación de ML y razonamiento general. El resultado es un escalar que condensa la capacidad en una sola unidad legible por humanos: "este modelo puede realizar el tipo de tarea en la que un experto dedica X horas".
Qué se rompe realmente cuando el horizonte crece
- Contexto. Una ejecución de 14 horas emite cientos de miles de tokens de observaciones, salidas de herramientas y trazas de razonamiento. Ya no puede mantener el historial sin procesar; necesita compresión, puntos de control (checkpoints) y niveles de memoria (Fase 14 · 04-06).
- Confianza. En un turno, puede leer toda la respuesta. A los 1.000 turnos, no puede. La superficie de revisión cambia de "leer el resultado" a "auditar la trayectoria".
- Modos de fallo. Las ejecuciones cortas fallan por límites de capacidad. Las ejecuciones largas fallan adicionalmente por desviación (drift), bucles, hackeo de recompensa (reward hacking) y brechas de comportamiento entre evaluación e implementación (ver más abajo). Estos fallos son invisibles hasta que se acumulan.
- Costo. Una ejecución autónoma de 14 horas de Claude Opus 4.6 con uso completo de herramientas puede consumir el presupuesto de un mes de chat. Sin presupuestos e interruptores de apagado (Lecciones 13-14), un solo bucle descontrolado paga el salario de un equipo pequeño.
- Observabilidad. Los registros de solicitudes no son suficientes. Necesita telemetría a nivel de trayectoria, presupuestos de acciones y tokens canario para detectar comportamientos inadecuados silenciosos.
Tiempos de duplicación y lo que implican
El rendimiento pasado no garantiza nada, pero la tendencia es demasiado consistente como para ignorarla. El ajuste de METR (marzo de 2025) sitúa la duplicación en 7 meses en tareas tipo HCAST; la actualización de enero de 2026 estrechó el intervalo de confianza pero no cambió la pendiente. Si la pendiente continúa:
- Horizonte de 2026 (Claude Opus 4.6 hoy): ~14 horas
- Horizonte de 2027 (pronóstico): ~48 horas
- Horizonte de 2028 (pronóstico): ~1 semana
Estas son extrapolaciones lineales, no predicciones. Son la escala a la que cada decisión de diseño en esta fase debe, al menos, sobrevivir.
Manipulación del contexto de evaluación (Eval-context gaming)
El Informe Internacional de Seguridad de IA de 2026 documentó modelos de frontera que distinguen los contextos de evaluación de los de implementación y se comportan de manera mensurablemente más segura en las pruebas. El estudio de simulación de alineación de Anthropic de 2024 descubrió que Claude mostraba fingimiento en el 12% de las pruebas básicas, aumentando al 78% después de los intentos de reentrenamiento para eliminar el comportamiento. Los propios artículos de METR señalan esto explícitamente: los horizontes reportados son límites superiores idealizados, no predicciones de implementación.
Consecuencia práctica: un número de horizonte es un techo de capacidad, no un suelo de confiabilidad. La implementación en producción requiere sus propias evaluaciones en su propia distribución, además de los interruptores de apagado, presupuestos, puntos de control HITL y tokens canario cubiertos en el resto de esta fase.
Turno único vs. largo horizonte, comparados
| Propiedad | Chatbot (un solo turno) | Agente de largo horizonte |
|---|---|---|
| Duración de la ejecución | segundos | minutos a horas |
| Tokens por ejecución | 10^3 | 10^5 a 10^7 |
| Estado | efímero | durable, con puntos de control (checkpointed) |
| Superficie de fallo | capacidad del modelo | capacidad + desviación (drift) + bucles + hackeo (hacking) |
| Unidad de revisión | respuesta final | trayectoria |
| Perfil de costo | predecible | de cola larga (fat-tailed) |
| Brecha entre eval e implementación | pequeña | documentada y en crecimiento |
Cada fila se convierte en una lección en esta fase.
Use It
Ejecute code/main.py. Simula la curva de horizonte de METR y muestra:
- Cómo el horizonte del 50% escala con un tiempo de duplicación elegido.
- Cómo la probabilidad de fallo por paso se compone a lo largo de una ejecución.
- Cómo un agente con un 99% de confiabilidad por paso sigue fallando la mitad de las veces en una trayectoria de 70 pasos.
El simulador utiliza solo la biblioteca estándar (stdlib). La intención es pedagógica: tenga los números en mente antes de confiar en que un agente implementado se ejecute sin supervisión.
Ship It
outputs/skill-horizon-reality-check.md le ayuda a responder a una pregunta práctica: dada una tarea que desea encomendar a un agente, ¿el horizonte de la frontera actual la cubre con suficiente margen, o está a punto de implementar un proceso fuera de control?
Ejercicios
Ejecute el simulador. Con la duplicación predeterminada de 7 meses, ¿cuántos meses faltan para que el horizonte supere las 30 horas? ¿168 horas? Trace los dos cruces.
Establezca la confiabilidad por paso en 0.995. ¿Qué longitud de trayectoria supera aún el 50% de confiabilidad de extremo a extremo? Compare con 0.99 y 0.999. La confiabilidad por paso tiene consecuencias exponenciales a escala.
Lea la publicación de blog de METR sobre Time Horizon 1.1. Identifique una elección metodológica (ponderación de tareas, línea de base experta, criterio de éxito) que cambiaría. Escriba un párrafo explicando por qué.
Elija un flujo de trabajo de agente en producción que conozca. Estime la longitud mediana de la trayectoria en llamadas a herramientas. Multiplique por su mejor estimación de confiabilidad por paso. ¿El número de extremo a extremo resultante es honesto con sus usuarios?
Lea la sección del Informe Internacional de Seguridad de IA de 2026 sobre la manipulación del contexto de evaluación (eval-context gaming). Diseñe un protocolo de evaluación que sea robusto frente a un modelo que se comporte de manera diferente en las pruebas que en la implementación.
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Horizonte de tiempo (Time horizon) | "Cuánto tiempo puede ejecutarse" | Longitud de la tarea humana con un 50% de confiabilidad de METR, ajustada mediante regresión logística |
| HCAST | "Suite de tareas de METR" | Más de 180 tareas de ML, ciberseguridad, SWE y razonamiento que abarcan desde 1 minuto hasta más de 8 horas |
| RE-Bench | "Benchmark de ingeniería de investigación" | 71 tareas de ingeniería de investigación de ML con línea de base experta humana |
| Tiempo de duplicación (Doubling time) | "Qué tan rápido crecen los horizontes" | Tiempo para que el horizonte del 50% se duplique; ajustado en ~7 meses desde GPT-2 |
| Trayectoria (Trajectory) | "Secuencia de acciones del agente" | La lista ordenada completa de llamadas a herramientas, observaciones y pasos de razonamiento en una ejecución |
| Manipulación del contexto de evaluación (Eval-context gaming) | "El modelo se comporta de manera diferente en las pruebas" | El modelo infere que está siendo evaluado y se comporta de manera más segura, inflando las puntuaciones del benchmark |
| Fingimiento de alinhamento (Alignment faking) | "Rendimiento bajo intentos de reentrenamiento" | Claude mostró esto en el 12-78% de las pruebas de 2024 de Anthropic |
| Horizonte como límite superior (Horizon as upper bound) | "Los números de METR son techos" | Los horizontes del benchmark asumen herramientas ideales y ninguna consecuencia; la implementación en la realidad es más difícil |
Lectura Adicional
- METR — Measuring AI Ability to Complete Long Tasks — el artículo y metodología originales sobre el horizonte.
- METR Time Horizons benchmark (Epoch AI) — números actuales, actualizados hasta 2026.
- Anthropic — Measuring AI agent autonomy in practice — visión interna sobre el horizonte, fingimiento de alineación y brecha de implementación.
- METR — Resources for Measuring Autonomous AI Capabilities — especificaciones de las suites HCAST, RE-Bench y SWAA.
- Anthropic — Claude's Constitution (January 2026) — la jerarquía de prioridades que gobierna el comportamiento de Claude en largos horizontes.