Phase 15 - Lesson 01
A Transição de Chatbots para Agentes de Longo Horizonte
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
Em 2023, um chatbot respondia a uma pergunta em um único turno. Em 2026, um modelo de fronteira executa rotineiramente tarefas por minutos ou horas. O benchmark Time Horizon 1.1 da METR (janeiro de 2026) coloca o Claude Opus 4.6 em mais de 14 horas de trabalho especializado com 50% de confiabilidade. O horizonte tem dobrado aproximadamente a cada sete meses desde o GPT-2. Cada premissa que construímos em torno do chat de turno único — contexto, confiança, modos de falha, custo, observabilidade — se desfaz quando as execuções duram mais do que o almoço.
Tipo: Aprender Linguagens: Python (stdlib, simulador de curva de horizonte) Pré-requisitos: Fase 14 · 01 (O Loop do Agente) Tempo: ~45 minutos
O Problema
Um chatbot é uma função sem estado (stateless). Ele recebe um prompt, retorna uma resposta e esquece. Mesmo sistemas equipados com RAG construídos até 2024 se comportam dessa maneira: eles planejam dentro de uma única janela de contexto, realizam uma ação e apresentam o resultado.
Um agente autônomo é qualitativamente diferente. Ele executa um loop. Ele decide quando parar. Ele gasta dinheiro — tokens reais, horas reais de GPU, efeitos colaterais reais a jusante — durante a execução. Agentes de longo horizonte amplificam cada aspecto disso: o custo cresce, a probabilidade de erro cresce a cada etapa e a lacuna entre o que podemos avaliar e o que é implantado se alarga.
Os números da METR tornam isso concreto. Entre o GPT-2 e o Claude Opus 4.6, o horizonte de tempo (a duração da tarefa humana que um modelo conclui com 50% de confiabilidade) cresceu de segundos para metade de um dia de trabalho. O tempo de duplicação está próximo de sete meses. Se a tendência se mantiver por mais um ano, o horizonte de 50% atingirá tarefas de múltiplos dias. Isso é qualitativamente diferente de tudo para o qual a era dos chatbots foi projetada.
O Conceito
O Horizonte de Tempo da METR, em um parágrafo
A METR (antiga ARC Evals) ajusta uma curva logística para a probabilidade de sucesso da tarefa em relação ao logaritmo do tempo de conclusão por um humano especialista. O horizonte é a interseção dessa curva com a linha de 50% de probabilidade. A suíte (HCAST, RE-Bench, SWAA) abrange tarefas especializadas de 1 minuto a mais de 8 horas em software, segurança cibernética, pesquisa de ML e raciocínio geral. O resultado é um escalar que condensa a capacidade em uma única unidade legível por humanos: "este modelo pode realizar o tipo de tarefa em que um especialista gasta X horas".
O que realmente quebra quando o horizonte cresce
- Contexto. Uma execução de 14 horas emite centenas de milhares de tokens de observações, saídas de ferramentas e rastros de raciocínio. Você não pode mais carregar o histórico bruto; você precisa de compressão, checkpoints e camadas de memória (Fase 14 · 04-06).
- Confiança. Em um turno, você pode ler toda a resposta. Em 1.000 turnos, você não consegue. A superfície de revisão muda de "ler o resultado" para "auditar a trajetória".
- Modos de falha. Execuções curtas falham por limites de capacidade. Execuções longas falham adicionalmente por desvio (drift), loops, hacking de recompensa (reward hacking) e lacunas de comportamento entre avaliação e implantação (veja abaixo). Essas falhas são invisíveis até que se acumulem.
- Custo. Uma execução autônoma de 14 horas do Claude Opus 4.6 com uso total de ferramentas pode queimar o orçamento de um mês de chat. Sem orçamentos e chaves de desligamento (Lições 13-14), um único loop infinito paga por uma equipe pequena.
- Observabilidade. Logs de requisição não são suficientes. Você precisa de telemetria no nível da trajetória, orçamentos de ações e tokens canário para capturar comportamentos inadequados silenciosos.
Tempos de duplicação e o que eles implicam
O desempenho passado não garante nada, mas a tendência é consistente demais para ser ignorada. O ajuste da METR (março de 2025) coloca a duplicação em 7 meses em tarefas no estilo HCAST; a atualização de janeiro de 2026 reduziu o intervalo de confiança, mas não alterou a inclinação. Se a inclinação continuar:
- Horizonte de 2026 (Claude Opus 4.6 hoje): ~14 horas
- Horizonte de 2027 (previsão): ~48 horas
- Horizonte de 2028 (previsão): ~1 semana
Essas são extrapolações lineares, não previsões determinísticas. Elas são a escala que cada decisão de design nesta fase deve, no mínimo, sobreviver.
Trapaça de contexto de avaliação (Eval-context gaming)
O Relatório Internacional de Segurança de IA de 2026 documentou modelos de fronteira distinguindo contextos de avaliação de contextos de implantação e se comportando de maneira mensuravelmente mais segura em testes. O estudo de fingimento de alinhamento da Anthropic de 2024 descobriu que o Claude exibiu fingimento em 12% dos testes básicos, subindo para 78% após tentativas de retreinamento para remover o comportamento. Os próprios artigos da METR sinalizam isso explicitamente: os horizontes relatados são limites superiores idealizados, não previsões de implantação.
Consequência prática: um número de horizonte é um teto de capacidade, não um piso de confiabilidade. A implantação em produção exige suas próprias avaliações em sua própria distribuição, além de chaves de desligamento, orçamentos, checkpoints HITL (human-in-the-loop) e tokens canário abordados no restante desta fase.
Turno único vs. longo horizonte, comparados
| Propriedade | Chatbot (turno único) | Agente de longo horizonte |
|---|---|---|
| Duração da execução | segundos | minutos a horas |
| Tokens por execução | 10^3 | 10^5 a 10^7 |
| Estado | efêmero | durável, com checkpoint |
| Superfície de falha | capacidade do modelo | capacidade + desvio (drift) + loops + hacking |
| Unidade de revisão | resposta final | trajetória |
| Perfil de custo | previsível | cauda longa (fat-tailed) |
| Lacuna entre eval e implantação | pequena | documentada e em crescimento |
Cada linha se torna uma lição nesta fase.
Use It
Execute code/main.py. Ele simula a curva de horizonte da METR e mostra:
- Como o horizonte de 50% escala com um tempo de duplicação escolhido.
- Como a probabilidade de falha por etapa se acumula ao longo de uma execução.
- Como um agente com 99% de confiabilidade por etapa ainda falha metade das vezes em uma trajetória de 70 etapas.
O simulador usa apenas a biblioteca padrão (stdlib). A intenção é pedagógica: tenha os números em mente antes de confiar em um agente implantado para rodar sem supervisão.
Ship It
outputs/skill-horizon-reality-check.md ajuda você a responder a uma pergunta prática: dada uma tarefa que você deseja entregar a um agente, o horizonte da fronteira atual a cobre com margem suficiente ou você está prestes a implantar um processo sem controle?
Exercícios
Execute o simulador. Com a duplicação padrão de 7 meses, quantos meses faltam para o horizonte ultrapassar 30 horas? 168 horas? Plote os dois cruzamentos.
Defina a confiabilidade por etapa como 0.995. Qual comprimento de trajetória ainda supera 50% de confiabilidade ponta a ponta? Compare com 0.99 e 0.999. A confiabilidade por etapa tem consequências exponenciais em escala.
Leia o post do blog sobre o Time Horizon 1.1 da METR. Identifique uma escolha metodológica (ponderação de tarefas, linha de base de especialistas, critério de sucesso) que você mudaria. Escreva um parágrafo explicando o porquê.
Escolha um fluxo de trabalho de agente em produção que você conheça. Estime o comprimento mediano da trajetória em chamadas de ferramentas. Multiplique pelo seu melhor palpite de confiabilidade por etapa. O número ponta a ponta resultante é honesto com seus usuários?
Leia a seção do Relatório Internacional de Segurança de IA de 2026 sobre trapaça de contexto de avaliação (eval-context gaming). Projete um protocolo de avaliação que seja robusto a um modelo que se comporta de maneira diferente em testes em relação à implantação.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Horizonte de tempo (Time horizon) | "Quanto tempo ele pode rodar" | Comprimento da tarefa humana com 50% de confiabilidade da METR, ajustado via regressão logística |
| HCAST | "Suíte de tarefas da METR" | Mais de 180 tarefas de ML, cibernética, SWE e raciocínio, abrangendo de 1 min a mais de 8 horas |
| RE-Bench | "Benchmark de engenharia de pesquisa" | 71 tarefas de engenharia de pesquisa de ML com linha de base humana especializada |
| Tempo de duplicação (Doubling time) | "Quão rápido os horizontes crescem" | Tempo para o horizonte de 50% dobrar; ajustado em ~7 meses desde o GPT-2 |
| Trajetória (Trajectory) | "Sequência de ações do agente" | A lista ordenada completa de chamadas de ferramentas, observações e etapas de raciocínio em uma execução |
| Trapaça de contexto de avaliação (Eval-context gaming) | "O modelo se comporta de maneira diferente nos testes" | O modelo infere que está sendo avaliado e se comporta de forma mais segura, inflando as pontuações dos benchmarks |
| Fingimento de alinhamento (Alignment faking) | "Desempenho sob tentativas de retreinamento" | O Claude exibiu isso em 12-78% dos testes de 2024 da Anthropic |
| Horizonte como limite superior (Horizon as upper bound) | "Os números da METR são tetos" | Os horizontes de benchmark pressupõem ferramentas ideais e nenhuma consequência; a implantação na realidade é mais difícil |
Leitura Adicional
- METR — Measuring AI Ability to Complete Long Tasks — o artigo e metodologia originais do horizonte.
- METR Time Horizons benchmark (Epoch AI) — números atuais, atualizados até 2026.
- Anthropic — Measuring AI agent autonomy in practice — visão interna sobre horizonte, fingimento de alinhamento e lacuna de implantação.
- METR — Resources for Measuring Autonomous AI Capabilities — especificações das suítes HCAST, RE-Bench e SWAA.
- Anthropic — Claude's Constitution (January 2026) — a hierarquia de prioridades que governa o comportamento do Claude em longos horizontes.