Phase 14 - Lesson 20
Benchmarks: WebArena e OSWorld
O WebArena testa a capacidade de agentes web em quatro aplicativos auto-hospedados. O OSWorld testa a capacidade de agentes desktop no Ubuntu, Windows e macOS. No lançamento (2023–2024), ambos mostraram uma grande lacuna entre os melhores agentes da categoria e os humanos. A lacuna está diminuindo; os modos de falha não mudaram.
Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 19 (SWE-bench, GAIA) Tempo: ~60 minutos
Objetivos de Aprendizado
- Descrever os quatro aplicativos auto-hospedados do WebArena e por que a avaliação baseada em execução é importante.
- Explicar por que o OSWorld usa capturas de tela reais do sistema operacional em vez de APIs de acessibilidade.
- Nomear os dois principais modos de falha do OSWorld: grounding de GUI e conhecimento operacional.
- Resumir o que o OSWorld-G e o OSWorld-Human adicionam ao benchmark base.
O Problema
Agentes generalistas podem chamar ferramentas. Mas será que eles conseguem navegar em um navegador por mais de 20 cliques para concluir a compra em uma loja virtual? Conseguem configurar uma máquina Linux usando apenas teclado e mouse? Essas são as perguntas que o WebArena e o OSWorld respondem.
O Conceito
WebArena (Zhou et al., ICLR 2024)
- 812 tarefas de horizonte longo em quatro aplicativos web auto-hospedados: um site de compras, um fórum, uma ferramenta de desenvolvimento semelhante ao GitLab e um CMS empresarial.
- Além de utilitários: mapa, calculadora, bloco de notas.
- A avaliação é baseada em execução por meio de APIs do gym — o pedido foi feito, a issue foi fechada, a página do CMS foi atualizada?
- No lançamento: o melhor agente GPT-4 atingiu 14,41% de sucesso contra 78,24% dos humanos.
A estrutura auto-hospedada é importante — o benchmark não é instável porque os aplicativos de destino são fixos e reproduzíveis.
Extensões
- VisualWebArena — tarefas com grounding visual em que o sucesso depende da interpretação de imagens (capturas de tela como observações de primeira classe).
- TheAgentCompany (Dez 2024) — adiciona terminal + codificação; assemelha-se mais a um ambiente de trabalho remoto real.
OSWorld (Xie et al., NeurIPS 2024)
- 369 tarefas de computador reais no Ubuntu, Windows e macOS.
- Controle livre de teclado e mouse de aplicativos reais.
- Capturas de tela de 1920×1080 como observação.
- No lançamento: melhor modelo com 12,24% contra 72,36% dos humanos.
Principais modos de falha
- Grounding de GUI. Mapeamento de pixel → elemento. Os modelos têm dificuldade para localizar elementos de UI de forma confiável em 1920×1080.
- Conhecimento operacional. Qual menu contém a configuração, qual atalho de teclado, qual painel de preferências. A cauda longa de conhecimento que os humanos acumulam ao longo de anos.
Acompanhamentos
- OSWorld-G — suíte de grounding de 564 amostras + conjunto de treinamento Jedi. Decompõe o grounding do planejamento para que você possa medi-los separadamente.
- OSWorld-Human — trajetórias de ação padrão (gold trajectories) curadas manualmente. Mostra que os melhores agentes usam de 1,4 a 2,7 vezes mais etapas do que o necessário (a lacuna de eficiência de trajetória).
Por que isso é importante
O uso do computador do Claude (computer use), o OpenAI CUA e o Gemini 2.5 Computer Use (Lição 21) são todos treinados em cargas de trabalho moldadas pelo WebArena e OSWorld. Os benchmarks são o alvo; os modelos de produção são a resposta entregue.
Onde o benchmarking falha
- Avaliações baseadas apenas em capturas de tela. O OSWorld é orientado por capturas de tela; avaliar um agente que usa DOM ou APIs de acessibilidade no OSWorld ignora o desafio de grounding.
- Ignorar o comprimento da trajetória. Pontuar apenas a taxa de sucesso desconsidera a ineficiência de etapas de 1,4 a 2,7 vezes revelada pelo OSWorld-Human.
- Aplicativos auto-hospedados desatualizados. Os aplicativos do WebArena fixam versões específicas; atualizar sem re-curadoria quebra a comparabilidade.
Build It
O code/main.py implementa uma infraestrutura de testes de agente web de brinquedo (toy):
- Uma máquina de estados mínima de um "aplicativo de compras": list_items, add_to_cart, checkout.
- Trajetórias padrão (gold trajectories) para 3 tarefas.
- Um agente programado que tenta cada tarefa.
- Avaliador baseado em execução (verificação de estado) e métrica de eficiência de trajetória (etapas versus gold).
Execute-o:
python3 code/main.py
Saída: taxa de sucesso por tarefa e eficiência da trajetória, espelhando a metodologia do OSWorld-Human.
Use It
- WebArena Verified auto-hospedado em um cluster interno para avaliação contínua.
- OSWorld em uma frota de VMs para agentes de desktop.
- Agentes de uso de computador (Lição 21) — Claude, OpenAI CUA, Gemini — todos treinados em cargas de trabalho como essas.
- Seus próprios fluxos de produto — capture trajetórias padrão (gold trajectories) para suas 20 principais tarefas; execute agentes contra elas semanalmente.
Ship It
O outputs/skill-web-desktop-harness.md constrói uma infraestrutura de testes para agentes web/desktop com avaliação baseada em execução e métrica de eficiência de trajetória.
Exercícios
- Estenda a infraestrutura de brinquedo com um segundo aplicativo (um fórum). Escreva 3 tarefas além das trajetórias padrão (gold trajectories).
- Adicione relatórios de eficiência de trajetória por tarefa. No seu brinquedo, o agente é 1x, 2x ou 3x superior ao gold?
- Implemente uma ferramenta "distratora" — uma que a trajetória padrão (gold trajectory) nunca usa. O agente programado cai na tentação de usá-la?
- Leia o OSWorld-G. Como você separaria falhas de grounding de falhas de planejamento em suas próprias avaliações?
- Leia o README dos aplicativos do WebArena. O que quebra quando você atualiza uma das versões fixadas do aplicativo?
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| WebArena | "Benchmark de agente web" | 812 tarefas em 4 aplicativos auto-hospedados; avaliação no estilo gym |
| VisualWebArena | "Visual WebArena" | WebArena com grounding visual; capturas de tela são as observações |
| OSWorld | "Benchmark de agente desktop" | 369 tarefas em Ubuntu/Windows/macOS reais |
| Grounding de GUI | "Mapeamento pixel a elemento" | Modelo localizando elementos de UI em 1920x1080 |
| Conhecimento operacional | "Conhecimento prático de SO" | Qual menu, qual atalho, qual painel de preferências |
| OSWorld-G | "Suíte de grounding" | 564 amostras apenas de grounding + conjunto de treinamento |
| OSWorld-Human | "Trajetórias padrão (gold)" | Sequências de ações manuais de especialistas para medir a eficiência |
| Eficiência de trajetória | "Etapas acima do gold" | Contagem de etapas do agente dividida pelo mínimo humano |
Further Reading
- Zhou et al., WebArena (arXiv:2307.13854) — benchmark web de quatro aplicativos
- Xie et al., OSWorld (arXiv:2404.07972) — benchmark de desktop multiplataforma
- Anthropic, Introducing computer use — capacidade do Claude moldada por benchmarks
- OpenAI, Computer-Using Agent — números do OSWorld e WebArena