Phase 14 - Lesson 20
Benchmarks: WebArena y OSWorld
WebArena prueba la capacidad de agentes web a través de cuatro aplicaciones auto-hospedadas. OSWorld prueba la capacidad de agentes de escritorio en Ubuntu, Windows y macOS. En su lanzamiento (2023–2024), ambos mostraron una gran brecha entre los mejores agentes de su clase y los humanos. La brecha se está reduciendo; los modos de fallo no han cambiado.
Tipo: Learn Lenguajes: Python (stdlib) Prerrequisitos: Phase 14 · 19 (SWE-bench, GAIA) Tiempo: ~60 minutos
Objetivos de Aprendizaje
- Describir las cuatro aplicaciones auto-hospedadas de WebArena y por qué es importante la evaluación basada en la ejecución.
- Explicar por qué OSWorld utiliza capturas de pantalla reales del sistema operativo en lugar de APIs de accesibilidad.
- Nombrar los dos modos de fallo principales de OSWorld: grounding de GUI y conocimiento operativo.
- Resumir qué añaden OSWorld-G y OSWorld-Human sobre el benchmark base.
El Problema
Los agentes generalistas pueden llamar a herramientas. ¿Pueden guiar un navegador a través de más de 20 clics para completar el pago de una compra? ¿Pueden configurar una máquina Linux utilizando únicamente el teclado y el ratón? Estas son las preguntas que responden WebArena y OSWorld.
El Concepto
WebArena (Zhou et al., ICLR 2024)
- 812 tareas de horizonte largo a través de cuatro aplicaciones web auto-hospedadas: un sitio de compras, un foro, una herramienta de desarrollo similar a GitLab y un CMS empresarial.
- Además de utilidades: mapa, calculadora, bloc de notas.
- La evaluación se basa en la ejecución a través de las APIs de gym: ¿se realizó el pedido?, ¿se cerró la issue?, ¿se actualizó la página del CMS?
- En su lanzamiento: el mejor agente GPT-4 alcanzó un 14.41% de éxito frente al 78.24% de los humanos.
El enfoque auto-hospedado es importante: el benchmark no es inestable porque las aplicaciones objetivo están fijadas y son reproducibles.
Extensiones
- VisualWebArena — tareas con grounding visual donde el éxito depende de la interpretación de imágenes (capturas de pantalla como observaciones de primera clase).
- TheAgentCompany (dic. 2024) — añade terminal + programación (coding); se asemeja más a un entorno real de trabajo remoto.
OSWorld (Xie et al., NeurIPS 2024)
- 369 tareas informáticas reales en Ubuntu, Windows y macOS.
- Control libre de teclado y ratón en aplicaciones reales.
- Capturas de pantalla de 1920×1080 como observación.
- En su lanzamiento: el mejor modelo alcanzó un 12.24% frente al 72.36% de los humanos.
Modos de fallo principales
- Grounding de GUI. Mapeo de píxel a elemento. Los modelos tienen dificultades para localizar elementos de la interfaz de usuario de manera confiable en 1920×1080.
- Conocimiento operativo. Qué menú tiene el ajuste, qué atajo de teclado, qué panel de preferencias. Ese conocimiento específico de la cola larga (long tail) que los humanos acumulan a lo largo de los años.
Seguimientos
- OSWorld-G — suite de grounding de 564 muestras + conjunto de entrenamiento Jedi. Descompone el grounding de la planificación para que se puedan medir por separado.
- OSWorld-Human — trayectorias de acción de referencia (gold trajectories) curadas manualmente. Muestra que los mejores agentes utilizan de 1.4 a 2.7 veces más pasos de los necesarios (la brecha de eficiencia de la trayectoria).
Por qué es importante
Claude computer use, OpenAI CUA y Gemini 2.5 Computer Use (Lección 21) se entrenan en cargas de trabajo definidas por WebArena y OSWorld. Los benchmarks son el objetivo; los modelos de producción son la respuesta final.
Dónde falla el benchmarking
- Evaluaciones basadas únicamente en capturas de pantalla. OSWorld está impulsado por capturas de pantalla; evaluar en OSWorld un agente que utiliza el DOM o APIs de accesibilidad pasa por alto el desafío del grounding.
- Ignorar la longitud de la trayectoria. Evaluar solo la tasa de éxito pasa por alto la ineficiencia de pasos de 1.4 a 2.7 veces que revela OSWorld-Human.
- Aplicaciones auto-hospedadas obsoletas. Las aplicaciones de WebArena fijan versiones específicas; actualizar sin volver a curar rompe la comparabilidad.
Build It
code/main.py implementa un arnés de agente web de juguete:
- Una máquina de estados mínima para una "aplicación de compras": list_items, add_to_cart, checkout.
- Trayectorias de referencia (gold trajectories) para 3 tareas.
- Un agente programado que intenta realizar cada tarea.
- Evaluador basado en la ejecución (verificación del estado) y métrica de eficiencia de trayectoria (pasos frente a gold).
Ejecútalo:
python3 code/main.py
Salida: tasa de éxito por tarea y eficiencia de la trayectoria, reflejando la metodología de OSWorld-Human.
Use It
- WebArena Verified auto-hospedado en un clúster interno para evaluación continua.
- OSWorld en una flota de máquinas virtuales para agentes de escritorio.
- Agentes de uso de computadora (Lección 21) — Claude, OpenAI CUA, Gemini — todos entrenados en cargas de trabajo como estas.
- Tus propios flujos de producto — captura trayectorias de referencia (gold trajectories) para tus 20 tareas principales; ejecuta agentes contra ellas semanalmente.
Ship It
outputs/skill-web-desktop-harness.md construye un arnés de agente web/de escritorio con evaluación basada en la ejecución y una métrica de eficiencia de trayectoria.
Ejercicios
- Amplía el arnés de juguete con una segunda aplicación (un foro). Escribe 3 tareas más trayectorias de referencia (gold trajectories).
- Añade informes de eficiencia de trayectoria por tarea. En tu juguete, ¿es el agente 1x, 2x o 3x superior a gold?
- Implementa una herramienta "distractora": una que la trayectoria de referencia (gold trajectory) nunca use. ¿Se ve tentado el agente programado?
- Lee OSWorld-G. ¿Cómo separarías los fallos de grounding de los fallos de planificación en tus propias evaluaciones?
- Lee el README de las aplicaciones de WebArena. ¿Qué se rompe cuando actualizas una de las versiones de las aplicaciones fijadas?
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| WebArena | "Benchmark de agente web" | 812 tareas en 4 aplicaciones auto-hospedadas; evaluación estilo gym |
| VisualWebArena | "Visual WebArena" | WebArena con grounding visual; las capturas de pantalla son observaciones |
| OSWorld | "Benchmark de agente de escritorio" | 369 tareas en Ubuntu/Windows/macOS reales |
| Grounding de GUI | "Mapeo de píxel a elemento" | Modelo localizando elementos de la interfaz de usuario en 1920x1080 |
| Conocimiento operativo | "Conocimiento práctico del SO" | Qué menú, qué atajo, qué panel de preferencias |
| OSWorld-G | "Suite de grounding" | 564 muestras solo de grounding + conjunto de entrenamiento |
| OSWorld-Human | "Trayectorias de referencia (gold)" | Secuencias de acciones manuales de expertos para medir la eficiencia |
| Eficiencia de trayectoria | "Pasos sobre gold" | Recuento de pasos del agente dividido por el mínimo humano |
Further Reading
- Zhou et al., WebArena (arXiv:2307.13854) — benchmark web de cuatro aplicaciones
- Xie et al., OSWorld (arXiv:2404.07972) — benchmark de escritorio multiplataforma
- Anthropic, Introducing computer use — capacidad de Claude moldeada por benchmarks
- OpenAI, Computer-Using Agent — números de OSWorld y WebArena