Phase 14 - Lesson 20

Benchmarks: WebArena e OSWorld

O WebArena testa a capacidade de agentes web em quatro aplicativos auto-hospedados. O OSWorld testa a capacidade de agentes desktop no Ubuntu, Windows e macOS. No lançamento (2023–2024), ambos mostraram uma grande lacuna entre os melhores agentes da categoria e os humanos. A lacuna está diminuindo; os modos de falha não mudaram.

Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 19 (SWE-bench, GAIA) Tempo: ~60 minutos

Objetivos de Aprendizado

Descrever os quatro aplicativos auto-hospedados do WebArena e por que a avaliação baseada em execução é importante.
Explicar por que o OSWorld usa capturas de tela reais do sistema operacional em vez de APIs de acessibilidade.
Nomear os dois principais modos de falha do OSWorld: grounding de GUI e conhecimento operacional.
Resumir o que o OSWorld-G e o OSWorld-Human adicionam ao benchmark base.

O Problema

Agentes generalistas podem chamar ferramentas. Mas será que eles conseguem navegar em um navegador por mais de 20 cliques para concluir a compra em uma loja virtual? Conseguem configurar uma máquina Linux usando apenas teclado e mouse? Essas são as perguntas que o WebArena e o OSWorld respondem.

O Conceito

WebArena (Zhou et al., ICLR 2024)

812 tarefas de horizonte longo em quatro aplicativos web auto-hospedados: um site de compras, um fórum, uma ferramenta de desenvolvimento semelhante ao GitLab e um CMS empresarial.
Além de utilitários: mapa, calculadora, bloco de notas.
A avaliação é baseada em execução por meio de APIs do gym — o pedido foi feito, a issue foi fechada, a página do CMS foi atualizada?
No lançamento: o melhor agente GPT-4 atingiu 14,41% de sucesso contra 78,24% dos humanos.

A estrutura auto-hospedada é importante — o benchmark não é instável porque os aplicativos de destino são fixos e reproduzíveis.

Extensões

VisualWebArena — tarefas com grounding visual em que o sucesso depende da interpretação de imagens (capturas de tela como observações de primeira classe).
TheAgentCompany (Dez 2024) — adiciona terminal + codificação; assemelha-se mais a um ambiente de trabalho remoto real.

OSWorld (Xie et al., NeurIPS 2024)

369 tarefas de computador reais no Ubuntu, Windows e macOS.
Controle livre de teclado e mouse de aplicativos reais.
Capturas de tela de 1920×1080 como observação.
No lançamento: melhor modelo com 12,24% contra 72,36% dos humanos.

Principais modos de falha

Grounding de GUI. Mapeamento de pixel → elemento. Os modelos têm dificuldade para localizar elementos de UI de forma confiável em 1920×1080.
Conhecimento operacional. Qual menu contém a configuração, qual atalho de teclado, qual painel de preferências. A cauda longa de conhecimento que os humanos acumulam ao longo de anos.

Acompanhamentos

OSWorld-G — suíte de grounding de 564 amostras + conjunto de treinamento Jedi. Decompõe o grounding do planejamento para que você possa medi-los separadamente.
OSWorld-Human — trajetórias de ação padrão (gold trajectories) curadas manualmente. Mostra que os melhores agentes usam de 1,4 a 2,7 vezes mais etapas do que o necessário (a lacuna de eficiência de trajetória).

Por que isso é importante

O uso do computador do Claude (computer use), o OpenAI CUA e o Gemini 2.5 Computer Use (Lição 21) são todos treinados em cargas de trabalho moldadas pelo WebArena e OSWorld. Os benchmarks são o alvo; os modelos de produção são a resposta entregue.

Onde o benchmarking falha

Avaliações baseadas apenas em capturas de tela. O OSWorld é orientado por capturas de tela; avaliar um agente que usa DOM ou APIs de acessibilidade no OSWorld ignora o desafio de grounding.
Ignorar o comprimento da trajetória. Pontuar apenas a taxa de sucesso desconsidera a ineficiência de etapas de 1,4 a 2,7 vezes revelada pelo OSWorld-Human.
Aplicativos auto-hospedados desatualizados. Os aplicativos do WebArena fixam versões específicas; atualizar sem re-curadoria quebra a comparabilidade.

Build It

O code/main.py implementa uma infraestrutura de testes de agente web de brinquedo (toy):

Uma máquina de estados mínima de um "aplicativo de compras": list_items, add_to_cart, checkout.
Trajetórias padrão (gold trajectories) para 3 tarefas.
Um agente programado que tenta cada tarefa.
Avaliador baseado em execução (verificação de estado) e métrica de eficiência de trajetória (etapas versus gold).

Execute-o:

python3 code/main.py

Saída: taxa de sucesso por tarefa e eficiência da trajetória, espelhando a metodologia do OSWorld-Human.

Use It

WebArena Verified auto-hospedado em um cluster interno para avaliação contínua.
OSWorld em uma frota de VMs para agentes de desktop.
Agentes de uso de computador (Lição 21) — Claude, OpenAI CUA, Gemini — todos treinados em cargas de trabalho como essas.
Seus próprios fluxos de produto — capture trajetórias padrão (gold trajectories) para suas 20 principais tarefas; execute agentes contra elas semanalmente.

Ship It

O outputs/skill-web-desktop-harness.md constrói uma infraestrutura de testes para agentes web/desktop com avaliação baseada em execução e métrica de eficiência de trajetória.

Exercícios

Estenda a infraestrutura de brinquedo com um segundo aplicativo (um fórum). Escreva 3 tarefas além das trajetórias padrão (gold trajectories).
Adicione relatórios de eficiência de trajetória por tarefa. No seu brinquedo, o agente é 1x, 2x ou 3x superior ao gold?
Implemente uma ferramenta "distratora" — uma que a trajetória padrão (gold trajectory) nunca usa. O agente programado cai na tentação de usá-la?
Leia o OSWorld-G. Como você separaria falhas de grounding de falhas de planejamento em suas próprias avaliações?
Leia o README dos aplicativos do WebArena. O que quebra quando você atualiza uma das versões fixadas do aplicativo?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
WebArena	"Benchmark de agente web"	812 tarefas em 4 aplicativos auto-hospedados; avaliação no estilo gym
VisualWebArena	"Visual WebArena"	WebArena com grounding visual; capturas de tela são as observações
OSWorld	"Benchmark de agente desktop"	369 tarefas em Ubuntu/Windows/macOS reais
Grounding de GUI	"Mapeamento pixel a elemento"	Modelo localizando elementos de UI em 1920x1080
Conhecimento operacional	"Conhecimento prático de SO"	Qual menu, qual atalho, qual painel de preferências
OSWorld-G	"Suíte de grounding"	564 amostras apenas de grounding + conjunto de treinamento
OSWorld-Human	"Trajetórias padrão (gold)"	Sequências de ações manuais de especialistas para medir a eficiência
Eficiência de trajetória	"Etapas acima do gold"	Contagem de etapas do agente dividida pelo mínimo humano