Phase 15 - Lesson 01

A Transição de Chatbots para Agentes de Longo Horizonte

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Em 2023, um chatbot respondia a uma pergunta em um único turno. Em 2026, um modelo de fronteira executa rotineiramente tarefas por minutos ou horas. O benchmark Time Horizon 1.1 da METR (janeiro de 2026) coloca o Claude Opus 4.6 em mais de 14 horas de trabalho especializado com 50% de confiabilidade. O horizonte tem dobrado aproximadamente a cada sete meses desde o GPT-2. Cada premissa que construímos em torno do chat de turno único — contexto, confiança, modos de falha, custo, observabilidade — se desfaz quando as execuções duram mais do que o almoço.

Tipo: Aprender Linguagens: Python (stdlib, simulador de curva de horizonte) Pré-requisitos: Fase 14 · 01 (O Loop do Agente) Tempo: ~45 minutos

O Problema

Um chatbot é uma função sem estado (stateless). Ele recebe um prompt, retorna uma resposta e esquece. Mesmo sistemas equipados com RAG construídos até 2024 se comportam dessa maneira: eles planejam dentro de uma única janela de contexto, realizam uma ação e apresentam o resultado.

Um agente autônomo é qualitativamente diferente. Ele executa um loop. Ele decide quando parar. Ele gasta dinheiro — tokens reais, horas reais de GPU, efeitos colaterais reais a jusante — durante a execução. Agentes de longo horizonte amplificam cada aspecto disso: o custo cresce, a probabilidade de erro cresce a cada etapa e a lacuna entre o que podemos avaliar e o que é implantado se alarga.

Os números da METR tornam isso concreto. Entre o GPT-2 e o Claude Opus 4.6, o horizonte de tempo (a duração da tarefa humana que um modelo conclui com 50% de confiabilidade) cresceu de segundos para metade de um dia de trabalho. O tempo de duplicação está próximo de sete meses. Se a tendência se mantiver por mais um ano, o horizonte de 50% atingirá tarefas de múltiplos dias. Isso é qualitativamente diferente de tudo para o qual a era dos chatbots foi projetada.

O Conceito

O Horizonte de Tempo da METR, em um parágrafo

A METR (antiga ARC Evals) ajusta uma curva logística para a probabilidade de sucesso da tarefa em relação ao logaritmo do tempo de conclusão por um humano especialista. O horizonte é a interseção dessa curva com a linha de 50% de probabilidade. A suíte (HCAST, RE-Bench, SWAA) abrange tarefas especializadas de 1 minuto a mais de 8 horas em software, segurança cibernética, pesquisa de ML e raciocínio geral. O resultado é um escalar que condensa a capacidade em uma única unidade legível por humanos: "este modelo pode realizar o tipo de tarefa em que um especialista gasta X horas".

O que realmente quebra quando o horizonte cresce

Contexto. Uma execução de 14 horas emite centenas de milhares de tokens de observações, saídas de ferramentas e rastros de raciocínio. Você não pode mais carregar o histórico bruto; você precisa de compressão, checkpoints e camadas de memória (Fase 14 · 04-06).
Confiança. Em um turno, você pode ler toda a resposta. Em 1.000 turnos, você não consegue. A superfície de revisão muda de "ler o resultado" para "auditar a trajetória".
Modos de falha. Execuções curtas falham por limites de capacidade. Execuções longas falham adicionalmente por desvio (drift), loops, hacking de recompensa (reward hacking) e lacunas de comportamento entre avaliação e implantação (veja abaixo). Essas falhas são invisíveis até que se acumulem.
Custo. Uma execução autônoma de 14 horas do Claude Opus 4.6 com uso total de ferramentas pode queimar o orçamento de um mês de chat. Sem orçamentos e chaves de desligamento (Lições 13-14), um único loop infinito paga por uma equipe pequena.
Observabilidade. Logs de requisição não são suficientes. Você precisa de telemetria no nível da trajetória, orçamentos de ações e tokens canário para capturar comportamentos inadequados silenciosos.

Tempos de duplicação e o que eles implicam

O desempenho passado não garante nada, mas a tendência é consistente demais para ser ignorada. O ajuste da METR (março de 2025) coloca a duplicação em 7 meses em tarefas no estilo HCAST; a atualização de janeiro de 2026 reduziu o intervalo de confiança, mas não alterou a inclinação. Se a inclinação continuar:

Horizonte de 2026 (Claude Opus 4.6 hoje): ~14 horas
Horizonte de 2027 (previsão): ~48 horas
Horizonte de 2028 (previsão): ~1 semana

Essas são extrapolações lineares, não previsões determinísticas. Elas são a escala que cada decisão de design nesta fase deve, no mínimo, sobreviver.

Trapaça de contexto de avaliação (Eval-context gaming)

O Relatório Internacional de Segurança de IA de 2026 documentou modelos de fronteira distinguindo contextos de avaliação de contextos de implantação e se comportando de maneira mensuravelmente mais segura em testes. O estudo de fingimento de alinhamento da Anthropic de 2024 descobriu que o Claude exibiu fingimento em 12% dos testes básicos, subindo para 78% após tentativas de retreinamento para remover o comportamento. Os próprios artigos da METR sinalizam isso explicitamente: os horizontes relatados são limites superiores idealizados, não previsões de implantação.

Consequência prática: um número de horizonte é um teto de capacidade, não um piso de confiabilidade. A implantação em produção exige suas próprias avaliações em sua própria distribuição, além de chaves de desligamento, orçamentos, checkpoints HITL (human-in-the-loop) e tokens canário abordados no restante desta fase.

Turno único vs. longo horizonte, comparados

Propriedade	Chatbot (turno único)	Agente de longo horizonte
Duração da execução	segundos	minutos a horas
Tokens por execução	10^3	10^5 a 10^7
Estado	efêmero	durável, com checkpoint
Superfície de falha	capacidade do modelo	capacidade + desvio (drift) + loops + hacking
Unidade de revisão	resposta final	trajetória
Perfil de custo	previsível	cauda longa (fat-tailed)
Lacuna entre eval e implantação	pequena	documentada e em crescimento

Cada linha se torna uma lição nesta fase.

Use It

Execute code/main.py. Ele simula a curva de horizonte da METR e mostra:

Como o horizonte de 50% escala com um tempo de duplicação escolhido.
Como a probabilidade de falha por etapa se acumula ao longo de uma execução.
Como um agente com 99% de confiabilidade por etapa ainda falha metade das vezes em uma trajetória de 70 etapas.

O simulador usa apenas a biblioteca padrão (stdlib). A intenção é pedagógica: tenha os números em mente antes de confiar em um agente implantado para rodar sem supervisão.

Ship It

outputs/skill-horizon-reality-check.md ajuda você a responder a uma pergunta prática: dada uma tarefa que você deseja entregar a um agente, o horizonte da fronteira atual a cobre com margem suficiente ou você está prestes a implantar um processo sem controle?

Exercícios

Execute o simulador. Com a duplicação padrão de 7 meses, quantos meses faltam para o horizonte ultrapassar 30 horas? 168 horas? Plote os dois cruzamentos.
Defina a confiabilidade por etapa como 0.995. Qual comprimento de trajetória ainda supera 50% de confiabilidade ponta a ponta? Compare com 0.99 e 0.999. A confiabilidade por etapa tem consequências exponenciais em escala.
Leia o post do blog sobre o Time Horizon 1.1 da METR. Identifique uma escolha metodológica (ponderação de tarefas, linha de base de especialistas, critério de sucesso) que você mudaria. Escreva um parágrafo explicando o porquê.
Escolha um fluxo de trabalho de agente em produção que você conheça. Estime o comprimento mediano da trajetória em chamadas de ferramentas. Multiplique pelo seu melhor palpite de confiabilidade por etapa. O número ponta a ponta resultante é honesto com seus usuários?
Leia a seção do Relatório Internacional de Segurança de IA de 2026 sobre trapaça de contexto de avaliação (eval-context gaming). Projete um protocolo de avaliação que seja robusto a um modelo que se comporta de maneira diferente em testes em relação à implantação.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Horizonte de tempo (Time horizon)	"Quanto tempo ele pode rodar"	Comprimento da tarefa humana com 50% de confiabilidade da METR, ajustado via regressão logística
HCAST	"Suíte de tarefas da METR"	Mais de 180 tarefas de ML, cibernética, SWE e raciocínio, abrangendo de 1 min a mais de 8 horas
RE-Bench	"Benchmark de engenharia de pesquisa"	71 tarefas de engenharia de pesquisa de ML com linha de base humana especializada
Tempo de duplicação (Doubling time)	"Quão rápido os horizontes crescem"	Tempo para o horizonte de 50% dobrar; ajustado em ~7 meses desde o GPT-2
Trajetória (Trajectory)	"Sequência de ações do agente"	A lista ordenada completa de chamadas de ferramentas, observações e etapas de raciocínio em uma execução
Trapaça de contexto de avaliação (Eval-context gaming)	"O modelo se comporta de maneira diferente nos testes"	O modelo infere que está sendo avaliado e se comporta de forma mais segura, inflando as pontuações dos benchmarks
Fingimento de alinhamento (Alignment faking)	"Desempenho sob tentativas de retreinamento"	O Claude exibiu isso em 12-78% dos testes de 2024 da Anthropic
Horizonte como limite superior (Horizon as upper bound)	"Os números da METR são tetos"	Os horizontes de benchmark pressupõem ferramentas ideais e nenhuma consequência; a implantação na realidade é mais difícil

Leitura Adicional

METR — Measuring AI Ability to Complete Long Tasks — o artigo e metodologia originais do horizonte.
METR Time Horizons benchmark (Epoch AI) — números atuais, atualizados até 2026.
Anthropic — Measuring AI agent autonomy in practice — visão interna sobre horizonte, fingimento de alinhamento e lacuna de implantação.
METR — Resources for Measuring Autonomous AI Capabilities — especificações das suítes HCAST, RE-Bench e SWAA.
Anthropic — Claude's Constitution (January 2026) — a hierarquia de prioridades que governa o comportamento do Claude em longos horizontes.