Phase 14 - Lesson 20

Benchmarks: WebArena y OSWorld

WebArena prueba la capacidad de agentes web a través de cuatro aplicaciones auto-hospedadas. OSWorld prueba la capacidad de agentes de escritorio en Ubuntu, Windows y macOS. En su lanzamiento (2023–2024), ambos mostraron una gran brecha entre los mejores agentes de su clase y los humanos. La brecha se está reduciendo; los modos de fallo no han cambiado.

Tipo: Learn Lenguajes: Python (stdlib) Prerrequisitos: Phase 14 · 19 (SWE-bench, GAIA) Tiempo: ~60 minutos

Objetivos de Aprendizaje

  • Describir las cuatro aplicaciones auto-hospedadas de WebArena y por qué es importante la evaluación basada en la ejecución.
  • Explicar por qué OSWorld utiliza capturas de pantalla reales del sistema operativo en lugar de APIs de accesibilidad.
  • Nombrar los dos modos de fallo principales de OSWorld: grounding de GUI y conocimiento operativo.
  • Resumir qué añaden OSWorld-G y OSWorld-Human sobre el benchmark base.

El Problema

Los agentes generalistas pueden llamar a herramientas. ¿Pueden guiar un navegador a través de más de 20 clics para completar el pago de una compra? ¿Pueden configurar una máquina Linux utilizando únicamente el teclado y el ratón? Estas son las preguntas que responden WebArena y OSWorld.

El Concepto

WebArena (Zhou et al., ICLR 2024)

  • 812 tareas de horizonte largo a través de cuatro aplicaciones web auto-hospedadas: un sitio de compras, un foro, una herramienta de desarrollo similar a GitLab y un CMS empresarial.
  • Además de utilidades: mapa, calculadora, bloc de notas.
  • La evaluación se basa en la ejecución a través de las APIs de gym: ¿se realizó el pedido?, ¿se cerró la issue?, ¿se actualizó la página del CMS?
  • En su lanzamiento: el mejor agente GPT-4 alcanzó un 14.41% de éxito frente al 78.24% de los humanos.

El enfoque auto-hospedado es importante: el benchmark no es inestable porque las aplicaciones objetivo están fijadas y son reproducibles.

Extensiones

  • VisualWebArena — tareas con grounding visual donde el éxito depende de la interpretación de imágenes (capturas de pantalla como observaciones de primera clase).
  • TheAgentCompany (dic. 2024) — añade terminal + programación (coding); se asemeja más a un entorno real de trabajo remoto.

OSWorld (Xie et al., NeurIPS 2024)

  • 369 tareas informáticas reales en Ubuntu, Windows y macOS.
  • Control libre de teclado y ratón en aplicaciones reales.
  • Capturas de pantalla de 1920×1080 como observación.
  • En su lanzamiento: el mejor modelo alcanzó un 12.24% frente al 72.36% de los humanos.

Modos de fallo principales

  1. Grounding de GUI. Mapeo de píxel a elemento. Los modelos tienen dificultades para localizar elementos de la interfaz de usuario de manera confiable en 1920×1080.
  2. Conocimiento operativo. Qué menú tiene el ajuste, qué atajo de teclado, qué panel de preferencias. Ese conocimiento específico de la cola larga (long tail) que los humanos acumulan a lo largo de los años.

Seguimientos

  • OSWorld-G — suite de grounding de 564 muestras + conjunto de entrenamiento Jedi. Descompone el grounding de la planificación para que se puedan medir por separado.
  • OSWorld-Human — trayectorias de acción de referencia (gold trajectories) curadas manualmente. Muestra que los mejores agentes utilizan de 1.4 a 2.7 veces más pasos de los necesarios (la brecha de eficiencia de la trayectoria).

Por qué es importante

Claude computer use, OpenAI CUA y Gemini 2.5 Computer Use (Lección 21) se entrenan en cargas de trabajo definidas por WebArena y OSWorld. Los benchmarks son el objetivo; los modelos de producción son la respuesta final.

Dónde falla el benchmarking

  • Evaluaciones basadas únicamente en capturas de pantalla. OSWorld está impulsado por capturas de pantalla; evaluar en OSWorld un agente que utiliza el DOM o APIs de accesibilidad pasa por alto el desafío del grounding.
  • Ignorar la longitud de la trayectoria. Evaluar solo la tasa de éxito pasa por alto la ineficiencia de pasos de 1.4 a 2.7 veces que revela OSWorld-Human.
  • Aplicaciones auto-hospedadas obsoletas. Las aplicaciones de WebArena fijan versiones específicas; actualizar sin volver a curar rompe la comparabilidad.

Build It

code/main.py implementa un arnés de agente web de juguete:

  • Una máquina de estados mínima para una "aplicación de compras": list_items, add_to_cart, checkout.
  • Trayectorias de referencia (gold trajectories) para 3 tareas.
  • Un agente programado que intenta realizar cada tarea.
  • Evaluador basado en la ejecución (verificación del estado) y métrica de eficiencia de trayectoria (pasos frente a gold).

Ejecútalo:

python3 code/main.py

Salida: tasa de éxito por tarea y eficiencia de la trayectoria, reflejando la metodología de OSWorld-Human.

Use It

  • WebArena Verified auto-hospedado en un clúster interno para evaluación continua.
  • OSWorld en una flota de máquinas virtuales para agentes de escritorio.
  • Agentes de uso de computadora (Lección 21) — Claude, OpenAI CUA, Gemini — todos entrenados en cargas de trabajo como estas.
  • Tus propios flujos de producto — captura trayectorias de referencia (gold trajectories) para tus 20 tareas principales; ejecuta agentes contra ellas semanalmente.

Ship It

outputs/skill-web-desktop-harness.md construye un arnés de agente web/de escritorio con evaluación basada en la ejecución y una métrica de eficiencia de trayectoria.

Ejercicios

  1. Amplía el arnés de juguete con una segunda aplicación (un foro). Escribe 3 tareas más trayectorias de referencia (gold trajectories).
  2. Añade informes de eficiencia de trayectoria por tarea. En tu juguete, ¿es el agente 1x, 2x o 3x superior a gold?
  3. Implementa una herramienta "distractora": una que la trayectoria de referencia (gold trajectory) nunca use. ¿Se ve tentado el agente programado?
  4. Lee OSWorld-G. ¿Cómo separarías los fallos de grounding de los fallos de planificación en tus propias evaluaciones?
  5. Lee el README de las aplicaciones de WebArena. ¿Qué se rompe cuando actualizas una de las versiones de las aplicaciones fijadas?

Términos Clave

Término Lo que la gente dice Lo que realmente significa
WebArena "Benchmark de agente web" 812 tareas en 4 aplicaciones auto-hospedadas; evaluación estilo gym
VisualWebArena "Visual WebArena" WebArena con grounding visual; las capturas de pantalla son observaciones
OSWorld "Benchmark de agente de escritorio" 369 tareas en Ubuntu/Windows/macOS reales
Grounding de GUI "Mapeo de píxel a elemento" Modelo localizando elementos de la interfaz de usuario en 1920x1080
Conocimiento operativo "Conocimiento práctico del SO" Qué menú, qué atajo, qué panel de preferencias
OSWorld-G "Suite de grounding" 564 muestras solo de grounding + conjunto de entrenamiento
OSWorld-Human "Trayectorias de referencia (gold)" Secuencias de acciones manuales de expertos para medir la eficiencia
Eficiencia de trayectoria "Pasos sobre gold" Recuento de pasos del agente dividido por el mínimo humano

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).