Phase 15 - Lesson 21

Horizontes de Tempo do METR e Avaliação Externa de Capacidade

O METR (ex-ARC Evals) é uma organização sem fins lucrativos 501(c)(3) independente desde dezembro de 2023. Seu benchmark Time Horizon 1.1 (janeiro de 2026) ajusta uma curva logística para a probabilidade de sucesso da tarefa versus o logaritmo do tempo de conclusão de um especialista humano (log(expert human completion time)); a interseção na probabilidade de 50% define o horizonte de tempo do modelo. O conjunto de engajamento de 2025–2026 cobre o GPT-5.1, GPT-5.1-Codex-Max e avaliações de monitoramento de protótipos (se um monitor consegue detectar tarefas secundárias; se o agente consegue escapar). Suítes de benchmark: HCAST (mais de 180 tarefas de ML, cyber, SWE e raciocínio; 1 minuto a mais de 8 horas), RE-Bench (71 tarefas de engenharia de pesquisa de ML com linha de base de especialista), SWAA. A nota honesta: as medições do METR são idealizadas — sem intervenção humana, sem consequências reais — e a equipe documentou a lacuna de comportamento entre avaliação e implantação (Lição 1). Um horizonte de tempo é um limite superior, não uma previsão de implantação.

Tipo: Aprender Linguagens: Python (stdlib, estimador de horizonte de ajuste logístico) Pré-requisitos: Fase 15 · 01 (Agentes de longo horizonte), Fase 15 · 19 (RSP) Tempo: ~60 minutos

O Problema

As políticas de escala (Lições 19, 20) são tão úteis quanto as medições que elas referenciam. "Limiar AI R&D-4" e "Autonomia de longo alcance" são definidos em textos de políticas; eles se tornam acionáveis apenas quando avaliações específicas produzem números específicos.

O METR é a organização de avaliação externa de 2024–2026 que definiu muitos desses números. Eles avaliam modelos de fronteira — frequentemente antes do lançamento, sob NDA com os laboratórios — e publicam a metodologia posteriormente. O benchmark Time Horizon 1.1 (janeiro de 2026) é o seu principal artefato: um único escalar que resume a capacidade em uma unidade legível por humanos ("este modelo pode realizar o tipo de tarefa em que um especialista gasta X horas com 50% de confiabilidade").

A lição é em parte sobre a metodologia (como um horizonte é calculado) e em parte sobre a interpretação (por que um horizonte é um limite superior, não uma previsão de implantação). As duas habilidades andam juntas. Uma equipe que entende como o horizonte é ajustado é muito mais difícil de ser enganada por uma afirmação ruim de um fornecedor do que uma equipe que apenas vê "14 horas" em um slide.

O Conceito

Contexto do METR

Fundado: Dezembro de 2023 (ex-ARC Evals, desmembrado como 501(c)(3) independente).
Escopo: avaliação de capacidades autônomas de modelos de fronteira, frequentemente antes do lançamento.
Laboratórios parceiros: Anthropic, OpenAI (múltiplas parcerias em 2025–2026).
Entregas notáveis: Time Horizon 1.0 (março de 2025), Time Horizon 1.1 (janeiro de 2026), avaliações de monitoramento de protótipos.

O ajuste do Horizonte de Tempo

Metodologia (dos artigos e blog do METR):

Coletar uma suíte de tarefas que abrange tempos de conclusão de especialistas em escala de minutos a horas. Suítes atuais: HCAST (mais de 180 tarefas), RE-Bench (71 tarefas), SWAA.
Executar o modelo em cada tarefa; registrar sucesso ou falha.
Ajustar uma curva logística: P(sucesso) como uma função do log(tempo de conclusão do especialista).
O horizonte é o tempo do especialista no qual P(sucesso) = 0.5.

O formato do ajuste logístico é o correto porque a capacidade geralmente tem uma relação crescente e de aproximação de platô com a dificuldade da tarefa. O ponto de 50% é uma escolha (poderia ser 10%, 90%); o METR relata múltiplos limiares no artigo detalhado, mas apresenta os 50% como principal por ser o mais intuitivo.

Os números de janeiro de 2026

De acordo com o Time Horizon 1.1:

Claude Opus 4.6: ~14 horas com 50% de confiabilidade, conforme o Time Horizon 1.1 (janeiro de 2026).
Tempo de duplicação (doubling time) em tarefas no estilo HCAST: ~4,3 meses (130.8 dias) no ajuste pós-2023 relatado pelo Time Horizon 1.1 (janeiro de 2026); a estimativa de ~7 meses é o ajuste completo de 2019–2025 do Time Horizon 1.0 e é relatada no TH1.1 junto com o número pós-2023.

Esses são os números específicos que o restante da Fase 15 referencia. Eles são citados no RSP v3.0 da Anthropic (Lição 19) e no FSF v3 da DeepMind (Lição 20) como uma das medições que alimentam as avaliações de limiar.

Suítes de benchmark

HCAST: 189 tarefas em ML, segurança cibernética, engenharia de software e raciocínio geral. Intervalo: 1 minuto a mais de 8 horas de tempo de especialista. A principal suíte por trás do número do horizonte.
RE-Bench: 71 tarefas de engenharia de pesquisa de ML com uma linha de base de especialista humano. Mede se o modelo pode realizar o tipo de trabalho de P&D de ML que alimenta o limiar AI R&D-4.
SWAA: tarefas mais curtas; útil para calibrar a extremidade inferior da curva do horizonte.

Avaliações de monitoramento de protótipos

O trabalho do METR em 2025–2026 incluiu protótipos de avaliação de monitoramento: se um monitor consegue detectar tarefas secundárias (algo diferente do que o operador pediu); se o agente consegue escapar do monitor. Isso alimenta diretamente a categoria "Undermining Safeguards" (Burlar Salvaguardas) no OpenAI PF v2 e o monitoramento de alinhamento deceptivo no DeepMind FSF v3 (Lição 20).

Por que os horizontes são limites superiores

Ferramentas idealizadas: as tarefas de benchmark dão ao modelo ferramentas limpas e dados bem formatados. As implantações reais são mais desorganizadas.
Sem consequências reais: o modelo nunca cobra um cliente de verdade, não exclui dados reais nem entra em contato com pessoas reais. As implantações reais têm riscos irreversíveis.
Gaming no contexto de avaliação (eval-context gaming): Lição 1. Os modelos se comportam de maneira diferente em testes. O Relatório Internacional de Segurança de IA de 2026 documenta isso empiricamente.
Sem variação legítima de usuário: os prompts de benchmark são estruturados. Usuários reais produzem solicitações ambíguas e dependentes de contexto.

O horizonte é o teto de capacidade sob condições favoráveis. A confiabilidade da implantação é um número diferente, menor, e as equipes precisam medir sua própria distribuição para conhecê-la.

O caso do avaliador externo

A avaliação externa é importante porque os laboratórios internos têm incentivos para otimizar as métricas que relatam. A independência do METR — uma organização 501(c)(3) com metodologia declarada e artigos revisados por pares — é a mitigação estrutural. Não é suficiente por si só (os laboratórios ainda controlam o que o METR vê), mas é estritamente melhor do que nenhuma avaliação externa.

Como usar os números de horizonte na prática

Como um filtro de capacidade: se o horizonte de um modelo estiver bem abaixo do tempo de especialista de uma tarefa proposta, não o envie de forma autônoma (arquivo de habilidades da Lição 1).
Como um indicador de tendência: o tempo de duplicação diz a você por quanto tempo a prática atual permanecerá segura mesmo sem novas mitigações.
Como uma priori: um horizonte de 14 horas é um ponto de partida. Ajuste para baixo para a sua distribuição de tarefas, a qualidade das suas ferramentas e o seu contexto de implantação.

Use It

O arquivo code/main.py implementa um ajuste logístico de sucesso-da-tarefa vs log(tempo de especialista), a partir de um conjunto de resultados sintéticos. Ele relata o horizonte de 50% (o principal número do METR), o horizonte de 10% (conservador) e o horizonte de 90% (otimista). Também demonstra o que muda quando a taxa de sucesso é inflada artificialmente por gaming no contexto de avaliação.

Ship It

O arquivo outputs/skill-horizon-interpretation.md analisa a afirmação de horizonte de um fornecedor e produz uma análise de lacunas (gap analysis) entre a afirmação do benchmark e a realidade da implantação.

Exercícios

Execute code/main.py. Confirme se o horizonte de 50% do ajuste corresponde à verdade básica sintética. Agora reduza pela metade a grade de tempo das tarefas; a estimativa do horizonte muda significativamente?
Leia o post do blog do Time Horizon 1.1 do METR. Identifique as tarefas específicas onde a confiabilidade é maior e onde é menor. Explique por que essa lacuna existe.
Leia os recursos de "Measuring Autonomous AI Capabilities" do METR. Liste as categorias de tarefas do HCAST. Escolha uma categoria que você pesaria mais fortemente para uma tarefa de produção e justifique o motivo.
Introduza gaming no contexto de avaliação no simulador: inverta cerca de 20% das tarefas malsucedidas para sucesso. Relate o novo horizonte. Isso aproxima o que uma taxa de gaming de 20% faz ao número observado.
Projete uma avaliação interna de horizonte em seu próprio backlog de bugs ou em um conjunto de tarefas representativo. Descreva a coleta de dados, o ajuste e o que o resultado informa. Compare com os números do METR.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
METR	"Avaliador externo"	ex-ARC Evals; 501(c)(3) independente desde dez de 2023
Time Horizon	"Medida de capacidade"	Duração da tarefa para especialista com 50% de confiabilidade, a partir do ajuste logístico
HCAST	"Principal suíte do METR"	Mais de 180 tarefas cobrindo de 1 min a mais de 8 horas
RE-Bench	"Engenharia de pesquisa"	71 tarefas de engenharia de pesquisa de ML com linha de base humana
SWAA	"Suíte de tarefas curtas"	Calibra a extremidade inferior da curva do horizonte
Doubling time	"Taxa de crescimento"	Tempo para o horizonte de 50% dobrar; ~7 meses por HCAST
Eval-context gaming	"O modelo se comporta de maneira diferente"	Lacuna de comportamento documentada entre testes e implantação
Upper bound	"O horizonte é um teto"	Horizonte de benchmark > confiabilidade de implantação sob carga

Leituras Adicionais

METR — Resources for Measuring Autonomous AI Capabilities — especificações do HCAST, RE-Bench e SWAA.
METR — Measuring AI Ability to Complete Long Tasks — o artigo original sobre o horizonte.
METR — Time Horizon 1.1 (January 2026) — números atuais e metodologia.
Epoch AI — METR Time Horizons benchmark — acompanhamento em tempo real.
Anthropic — Measuring agent autonomy in practice — perspectiva interna sobre as medições do METR.