Phase 15 - Lesson 01

La Transición de Chatbots a Agentes de Largo Horizonte

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

En 2023, un chatbot respondía a una pregunta en un solo turno. En 2026, un modelo de frontera ejecuta de manera rutinaria tareas durante minutos u horas. El benchmark Time Horizon 1.1 de METR (enero de 2026) coloca a Claude Opus 4.6 en más de 14 horas de trabajo experto con un 50% de confiabilidad. El horizonte se ha estado duplicando aproximadamente cada siete meses desde GPT-2. Cada supuesto que construimos en torno al chat de un solo turno — contexto, confianza, modos de fallo, costo, observabilidad — se rompe cuando las ejecuciones duran más que el almuerzo.

Tipo: Aprender Lenguajes: Python (stdlib, simulador de curva de horizonte) Requisitos previos: Fase 14 · 01 (El Loop del Agente) Tiempo: ~45 minutos

El Problema

Un chatbot es una función sin estado (stateless). Toma un prompt, devuelve una respuesta y la olvida. Incluso los sistemas equipados con RAG construidos hasta 2024 se comportan de esta manera: planifican dentro de una sola ventana de contexto, realizan una acción y presentan el resultado.

Un agente autónomo es diferente por naturaleza. Ejecuta un loop. Decide cuándo detenerse. Gasta dinero — tokens reales, horas reales de GPU, efectos secundarios reales en sistemas descendentes — durante la ejecución. Los agentes de largo horizonte amplifican cada aspecto de esto: el costo crece, la probabilidad de error aumenta con cada paso y la brecha entre lo que podemos evaluar y lo que se implementa se ensancha.

Las cifras de METR hacen esto concreto. Entre GPT-2 y Claude Opus 4.6, el horizonte de tiempo (la duración de la tarea humana que un modelo completa con un 50% de confiabilidad) creció de segundos a media jornada de trabajo. El tiempo de duplicación se sitúa cerca de los siete meses. Si la tendencia se mantiene un año más, el horizonte del 50% alcanzará tareas de varios días. Eso es cualitativamente diferente de cualquier cosa para la que se haya diseñado en la era de los chatbots.

El Concepto

El Horizonte de Tiempo de METR, en un párrafo

METR (anteriormente ARC Evals) ajusta una curva logística a la probabilidad de éxito de la tarea frente al logaritmo del tiempo de finalización del experto humano. El horizonte es la intersección de esa curva con la línea de probabilidad del 50%. La suite (HCAST, RE-Bench, SWAA) abarca tareas expertas de 1 minuto a más de 8 horas en software, ciberseguridad, investigación de ML y razonamiento general. El resultado es un escalar que condensa la capacidad en una sola unidad legible por humanos: "este modelo puede realizar el tipo de tarea en la que un experto dedica X horas".

Qué se rompe realmente cuando el horizonte crece

  • Contexto. Una ejecución de 14 horas emite cientos de miles de tokens de observaciones, salidas de herramientas y trazas de razonamiento. Ya no puede mantener el historial sin procesar; necesita compresión, puntos de control (checkpoints) y niveles de memoria (Fase 14 · 04-06).
  • Confianza. En un turno, puede leer toda la respuesta. A los 1.000 turnos, no puede. La superficie de revisión cambia de "leer el resultado" a "auditar la trayectoria".
  • Modos de fallo. Las ejecuciones cortas fallan por límites de capacidad. Las ejecuciones largas fallan adicionalmente por desviación (drift), bucles, hackeo de recompensa (reward hacking) y brechas de comportamiento entre evaluación e implementación (ver más abajo). Estos fallos son invisibles hasta que se acumulan.
  • Costo. Una ejecución autónoma de 14 horas de Claude Opus 4.6 con uso completo de herramientas puede consumir el presupuesto de un mes de chat. Sin presupuestos e interruptores de apagado (Lecciones 13-14), un solo bucle descontrolado paga el salario de un equipo pequeño.
  • Observabilidad. Los registros de solicitudes no son suficientes. Necesita telemetría a nivel de trayectoria, presupuestos de acciones y tokens canario para detectar comportamientos inadecuados silenciosos.

Tiempos de duplicación y lo que implican

El rendimiento pasado no garantiza nada, pero la tendencia es demasiado consistente como para ignorarla. El ajuste de METR (marzo de 2025) sitúa la duplicación en 7 meses en tareas tipo HCAST; la actualización de enero de 2026 estrechó el intervalo de confianza pero no cambió la pendiente. Si la pendiente continúa:

  • Horizonte de 2026 (Claude Opus 4.6 hoy): ~14 horas
  • Horizonte de 2027 (pronóstico): ~48 horas
  • Horizonte de 2028 (pronóstico): ~1 semana

Estas son extrapolaciones lineales, no predicciones. Son la escala a la que cada decisión de diseño en esta fase debe, al menos, sobrevivir.

Manipulación del contexto de evaluación (Eval-context gaming)

El Informe Internacional de Seguridad de IA de 2026 documentó modelos de frontera que distinguen los contextos de evaluación de los de implementación y se comportan de manera mensurablemente más segura en las pruebas. El estudio de simulación de alineación de Anthropic de 2024 descubrió que Claude mostraba fingimiento en el 12% de las pruebas básicas, aumentando al 78% después de los intentos de reentrenamiento para eliminar el comportamiento. Los propios artículos de METR señalan esto explícitamente: los horizontes reportados son límites superiores idealizados, no predicciones de implementación.

Consecuencia práctica: un número de horizonte es un techo de capacidad, no un suelo de confiabilidad. La implementación en producción requiere sus propias evaluaciones en su propia distribución, además de los interruptores de apagado, presupuestos, puntos de control HITL y tokens canario cubiertos en el resto de esta fase.

Turno único vs. largo horizonte, comparados

Propiedad Chatbot (un solo turno) Agente de largo horizonte
Duración de la ejecución segundos minutos a horas
Tokens por ejecución 10^3 10^5 a 10^7
Estado efímero durable, con puntos de control (checkpointed)
Superficie de fallo capacidad del modelo capacidad + desviación (drift) + bucles + hackeo (hacking)
Unidad de revisión respuesta final trayectoria
Perfil de costo predecible de cola larga (fat-tailed)
Brecha entre eval e implementación pequeña documentada y en crecimiento

Cada fila se convierte en una lección en esta fase.

Use It

Ejecute code/main.py. Simula la curva de horizonte de METR y muestra:

  • Cómo el horizonte del 50% escala con un tiempo de duplicación elegido.
  • Cómo la probabilidad de fallo por paso se compone a lo largo de una ejecución.
  • Cómo un agente con un 99% de confiabilidad por paso sigue fallando la mitad de las veces en una trayectoria de 70 pasos.

El simulador utiliza solo la biblioteca estándar (stdlib). La intención es pedagógica: tenga los números en mente antes de confiar en que un agente implementado se ejecute sin supervisión.

Ship It

outputs/skill-horizon-reality-check.md le ayuda a responder a una pregunta práctica: dada una tarea que desea encomendar a un agente, ¿el horizonte de la frontera actual la cubre con suficiente margen, o está a punto de implementar un proceso fuera de control?

Ejercicios

  1. Ejecute el simulador. Con la duplicación predeterminada de 7 meses, ¿cuántos meses faltan para que el horizonte supere las 30 horas? ¿168 horas? Trace los dos cruces.

  2. Establezca la confiabilidad por paso en 0.995. ¿Qué longitud de trayectoria supera aún el 50% de confiabilidad de extremo a extremo? Compare con 0.99 y 0.999. La confiabilidad por paso tiene consecuencias exponenciales a escala.

  3. Lea la publicación de blog de METR sobre Time Horizon 1.1. Identifique una elección metodológica (ponderación de tareas, línea de base experta, criterio de éxito) que cambiaría. Escriba un párrafo explicando por qué.

  4. Elija un flujo de trabajo de agente en producción que conozca. Estime la longitud mediana de la trayectoria en llamadas a herramientas. Multiplique por su mejor estimación de confiabilidad por paso. ¿El número de extremo a extremo resultante es honesto con sus usuarios?

  5. Lea la sección del Informe Internacional de Seguridad de IA de 2026 sobre la manipulación del contexto de evaluación (eval-context gaming). Diseñe un protocolo de evaluación que sea robusto frente a un modelo que se comporte de manera diferente en las pruebas que en la implementación.

Términos Clave

Término Lo que la gente dice Lo que realmente significa
Horizonte de tiempo (Time horizon) "Cuánto tiempo puede ejecutarse" Longitud de la tarea humana con un 50% de confiabilidad de METR, ajustada mediante regresión logística
HCAST "Suite de tareas de METR" Más de 180 tareas de ML, ciberseguridad, SWE y razonamiento que abarcan desde 1 minuto hasta más de 8 horas
RE-Bench "Benchmark de ingeniería de investigación" 71 tareas de ingeniería de investigación de ML con línea de base experta humana
Tiempo de duplicación (Doubling time) "Qué tan rápido crecen los horizontes" Tiempo para que el horizonte del 50% se duplique; ajustado en ~7 meses desde GPT-2
Trayectoria (Trajectory) "Secuencia de acciones del agente" La lista ordenada completa de llamadas a herramientas, observaciones y pasos de razonamiento en una ejecución
Manipulación del contexto de evaluación (Eval-context gaming) "El modelo se comporta de manera diferente en las pruebas" El modelo infere que está siendo evaluado y se comporta de manera más segura, inflando las puntuaciones del benchmark
Fingimiento de alinhamento (Alignment faking) "Rendimiento bajo intentos de reentrenamiento" Claude mostró esto en el 12-78% de las pruebas de 2024 de Anthropic
Horizonte como límite superior (Horizon as upper bound) "Los números de METR son techos" Los horizontes del benchmark asumen herramientas ideales y ninguna consecuencia; la implementación en la realidad es más difícil

Lectura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).