Phase 14 - Lesson 20

Benchmarks: WebArena e OSWorld

O WebArena testa a capacidade de agentes web em quatro aplicativos auto-hospedados. O OSWorld testa a capacidade de agentes desktop no Ubuntu, Windows e macOS. No lançamento (2023–2024), ambos mostraram uma grande lacuna entre os melhores agentes da categoria e os humanos. A lacuna está diminuindo; os modos de falha não mudaram.

Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 19 (SWE-bench, GAIA) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Descrever os quatro aplicativos auto-hospedados do WebArena e por que a avaliação baseada em execução é importante.
  • Explicar por que o OSWorld usa capturas de tela reais do sistema operacional em vez de APIs de acessibilidade.
  • Nomear os dois principais modos de falha do OSWorld: grounding de GUI e conhecimento operacional.
  • Resumir o que o OSWorld-G e o OSWorld-Human adicionam ao benchmark base.

O Problema

Agentes generalistas podem chamar ferramentas. Mas será que eles conseguem navegar em um navegador por mais de 20 cliques para concluir a compra em uma loja virtual? Conseguem configurar uma máquina Linux usando apenas teclado e mouse? Essas são as perguntas que o WebArena e o OSWorld respondem.

O Conceito

WebArena (Zhou et al., ICLR 2024)

  • 812 tarefas de horizonte longo em quatro aplicativos web auto-hospedados: um site de compras, um fórum, uma ferramenta de desenvolvimento semelhante ao GitLab e um CMS empresarial.
  • Além de utilitários: mapa, calculadora, bloco de notas.
  • A avaliação é baseada em execução por meio de APIs do gym — o pedido foi feito, a issue foi fechada, a página do CMS foi atualizada?
  • No lançamento: o melhor agente GPT-4 atingiu 14,41% de sucesso contra 78,24% dos humanos.

A estrutura auto-hospedada é importante — o benchmark não é instável porque os aplicativos de destino são fixos e reproduzíveis.

Extensões

  • VisualWebArena — tarefas com grounding visual em que o sucesso depende da interpretação de imagens (capturas de tela como observações de primeira classe).
  • TheAgentCompany (Dez 2024) — adiciona terminal + codificação; assemelha-se mais a um ambiente de trabalho remoto real.

OSWorld (Xie et al., NeurIPS 2024)

  • 369 tarefas de computador reais no Ubuntu, Windows e macOS.
  • Controle livre de teclado e mouse de aplicativos reais.
  • Capturas de tela de 1920×1080 como observação.
  • No lançamento: melhor modelo com 12,24% contra 72,36% dos humanos.

Principais modos de falha

  1. Grounding de GUI. Mapeamento de pixel → elemento. Os modelos têm dificuldade para localizar elementos de UI de forma confiável em 1920×1080.
  2. Conhecimento operacional. Qual menu contém a configuração, qual atalho de teclado, qual painel de preferências. A cauda longa de conhecimento que os humanos acumulam ao longo de anos.

Acompanhamentos

  • OSWorld-G — suíte de grounding de 564 amostras + conjunto de treinamento Jedi. Decompõe o grounding do planejamento para que você possa medi-los separadamente.
  • OSWorld-Human — trajetórias de ação padrão (gold trajectories) curadas manualmente. Mostra que os melhores agentes usam de 1,4 a 2,7 vezes mais etapas do que o necessário (a lacuna de eficiência de trajetória).

Por que isso é importante

O uso do computador do Claude (computer use), o OpenAI CUA e o Gemini 2.5 Computer Use (Lição 21) são todos treinados em cargas de trabalho moldadas pelo WebArena e OSWorld. Os benchmarks são o alvo; os modelos de produção são a resposta entregue.

Onde o benchmarking falha

  • Avaliações baseadas apenas em capturas de tela. O OSWorld é orientado por capturas de tela; avaliar um agente que usa DOM ou APIs de acessibilidade no OSWorld ignora o desafio de grounding.
  • Ignorar o comprimento da trajetória. Pontuar apenas a taxa de sucesso desconsidera a ineficiência de etapas de 1,4 a 2,7 vezes revelada pelo OSWorld-Human.
  • Aplicativos auto-hospedados desatualizados. Os aplicativos do WebArena fixam versões específicas; atualizar sem re-curadoria quebra a comparabilidade.

Build It

O code/main.py implementa uma infraestrutura de testes de agente web de brinquedo (toy):

  • Uma máquina de estados mínima de um "aplicativo de compras": list_items, add_to_cart, checkout.
  • Trajetórias padrão (gold trajectories) para 3 tarefas.
  • Um agente programado que tenta cada tarefa.
  • Avaliador baseado em execução (verificação de estado) e métrica de eficiência de trajetória (etapas versus gold).

Execute-o:

python3 code/main.py

Saída: taxa de sucesso por tarefa e eficiência da trajetória, espelhando a metodologia do OSWorld-Human.

Use It

  • WebArena Verified auto-hospedado em um cluster interno para avaliação contínua.
  • OSWorld em uma frota de VMs para agentes de desktop.
  • Agentes de uso de computador (Lição 21) — Claude, OpenAI CUA, Gemini — todos treinados em cargas de trabalho como essas.
  • Seus próprios fluxos de produto — capture trajetórias padrão (gold trajectories) para suas 20 principais tarefas; execute agentes contra elas semanalmente.

Ship It

O outputs/skill-web-desktop-harness.md constrói uma infraestrutura de testes para agentes web/desktop com avaliação baseada em execução e métrica de eficiência de trajetória.

Exercícios

  1. Estenda a infraestrutura de brinquedo com um segundo aplicativo (um fórum). Escreva 3 tarefas além das trajetórias padrão (gold trajectories).
  2. Adicione relatórios de eficiência de trajetória por tarefa. No seu brinquedo, o agente é 1x, 2x ou 3x superior ao gold?
  3. Implemente uma ferramenta "distratora" — uma que a trajetória padrão (gold trajectory) nunca usa. O agente programado cai na tentação de usá-la?
  4. Leia o OSWorld-G. Como você separaria falhas de grounding de falhas de planejamento em suas próprias avaliações?
  5. Leia o README dos aplicativos do WebArena. O que quebra quando você atualiza uma das versões fixadas do aplicativo?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
WebArena "Benchmark de agente web" 812 tarefas em 4 aplicativos auto-hospedados; avaliação no estilo gym
VisualWebArena "Visual WebArena" WebArena com grounding visual; capturas de tela são as observações
OSWorld "Benchmark de agente desktop" 369 tarefas em Ubuntu/Windows/macOS reais
Grounding de GUI "Mapeamento pixel a elemento" Modelo localizando elementos de UI em 1920x1080
Conhecimento operacional "Conhecimento prático de SO" Qual menu, qual atalho, qual painel de preferências
OSWorld-G "Suíte de grounding" 564 amostras apenas de grounding + conjunto de treinamento
OSWorld-Human "Trajetórias padrão (gold)" Sequências de ações manuais de especialistas para medir a eficiência
Eficiência de trajetória "Etapas acima do gold" Contagem de etapas do agente dividida pelo mínimo humano

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).