Phase 16 - Lesson 24

Benchmarks de Evaluación y Coordinación

Cinco benchmarks de 2025-2026 cubren el espacio de evaluación multiagente. MultiAgentBench / MARBLE (ACL 2025, arXiv:2503.01935) evalúa topologías de estrella (star), cadena (chain), árbol (tree) y grafo (graph) con KPIs basados en hitos (milestones); la de grafo es la mejor para investigación, el planeamiento cognitivo añade ~3% de cumplimiento de hitos. COMMA evalúa la coordinación multimodal con información asimétrica; los modelos de última generación, incluido GPT-4o, tienen dificultades para superar un baseline aleatorio. MedAgentBoard (arXiv:2505.12371) cubre cuatro categorías de tareas médicas y a menudo concluye que la aproximación multiagente no domina sobre un único LLM. AgentArch (arXiv:2509.10769) evalúa arquitecturas de agentes empresariales que combinan uso de herramientas + memoria + orquestación. SWE-bench Pro (arXiv:2509.16941) contiene 1865 problemas en 41 repositorios que abarcan aplicaciones empresariales, servicios B2B y herramientas de desarrollo; los modelos de frontera obtienen ~23% en Pro frente a 70%+ en Verified, lo que supone un baño de realidad sobre la contaminación. Se reporta un 64.3% para Claude Opus 4.7 (abril de 2026) en Pro con coordinación explícita de equipos de agentes (no se ha publicado ninguna fuente primaria de Anthropic todavía; considérese preliminar); Verdent (andamio de agentes) alcanza 76.1% pass@1 en Verified (informe técnico de Verdent). AAAI 2026 Bridge Program WMAC (https://multiagents.org/2026/) es el punto focal de la comunidad en 2026. Esta lección se basa en las métricas de MARBLE, ejecuta un barrido de topología vs métrica y establece la regla de que "aprobar SWE-bench Verified no es evidencia de generalización".

Tipo: Aprender Idiomas: Python (stdlib) Prerrequisitos: Fase 16 · 15 (Topología de Votación y Debate), Fase 16 · 23 (Modos de Fallo) Tiempo: ~75 minutos

Problema

Cuando un artículo afirma que "nuestro sistema multiagente es mejor", la pregunta es: ¿mejor que qué, en qué tarea y medido cómo? La era de 2023-2024 de la evaluación de multiagentes era el caos: cada uno elegía sus propias métricas, sus propios baselines y sus propios conjuntos de tareas. Los benchmarks de 2025-2026 impusieron estructura.

Sin benchmarks compartidos, no se pueden comparar dos sistemas multiagente de manera significativa. Peor aún, sin benchmarks de retención (hold-out), los modelos de frontera pueden sufrir contaminación. SWE-bench Verified se contaminó parcialmente en los corpora de entrenamiento a mediados de 2025; las puntuaciones de los modelos de frontera se inflaron; Pro se diseñó como un baño de realidad libre de contaminación.

Esta lección enumera los cinco benchmarks canónicos de 2026, indica lo que mide cada uno y te enseña a leer las afirmaciones de los benchmarks con escepticismo.

Concepto

MultiAgentBench (MARBLE) — ACL 2025

arXiv:2503.01935. Evalúa cuatro topologías de coordinación (estrella, cadena, árbol, grafo) en tareas de investigación, codificación y planificación. Los KPIs basados en hitos realizan un seguimiento del progreso parcial, en lugar de centrarse únicamente en el éxito final.

Resultados medidos:

  • La topología en grafo es la mejor para escenarios de investigación; admite críticas any-to-any (todos contra todos).
  • La topología en cadena es la mejor para la codificación con refinamiento paso a paso.
  • La topología en estrella es la mejor para la consolidación rápida de hechos.
  • El impuesto de coordinación aparece después de ~4 agentes en la topología en grafo.
  • El planeamiento cognitivo añade ~3% de cumplimiento de hitos en las topologías.

Úsalo cuando: quieras comparar topologías de coordinación de forma equivalente. El repositorio de MARBLE (https://github.com/ulab-uiuc/MARBLE) proporciona el evaluador.

COMMA — información asimétrica multimodal

Cubre tareas en las que los agentes tienen diferentes modalidades de observación y deben coordinarse sin compartir información por completo. El resultado reportado es incómodo: los modelos de frontera, incluido GPT-4o, tienen dificultades para superar un baseline aleatorio en la colaboración agente-agente en COMMA. La señal indica que las modalidades multiagente están subentrenadas y subevaluadas: los LLMs manejan la cooperación unimodal de manera razonable; la coordinación multimodal se desploma.

Úsalo cuando: tu sistema tenga coordinación multimodal o con información asimétrica. El resultado nulo de COMMA sirve como advertencia para medir antes de afirmar.

MedAgentBoard — prueba de estrés de dominio

arXiv:2505.12371. Cuatro categorías de tareas médicas: diagnóstico, planificación del tratamiento, generación de informes y comunicación con pacientes. Compara la aproximación multiagente vs LLM único vs sistemas convencionales basados en reglas.

Hallazgo: el multiagente NO domina al LLM único en la mayoría de las categorías. La ventaja del multiagente es estrecha: la descomposición de tareas ayuda cuando las subtareas son claramente separables (diagnóstico + tratamiento); perjudica cuando la sobrecarga de coordinación supera la ganancia por especialización (generación de informes).

Úsalo cuando: tu dominio tenga baselines claros de LLM único. Si la lección de MedAgentBoard se generaliza, muchos de los sistemas multiagente propuestos están sobrediseñados.

AgentArch — arquitecturas empresariales

arXiv:2509.10769. Entornos empresariales con uso de herramientas, memoria y orquestación estructurados en capas. El benchmark aísla la contribución de cada capa: ¿cuánto ayuda agregar herramientas? ¿Agregar memoria? ¿Agregar orquestación multiagente?

Úsalo cuando: estés diseñando una pila (stack) de agentes empresariales y necesites justificar cada capa. AgentArch ayuda a evitar la adquisición de características cuyo valor no puedes medir.

SWE-bench Pro — el baño de realidad

arXiv:2509.16941. 1865 problemas en 41 repositorios que abarcan aplicaciones empresariales, servicios B2B y herramientas de desarrollo. Diseñado para estar libre de contaminación con límites de entrenamiento más recientes. Los modelos de frontera obtienen ~23% en Pro frente a 70%+ en Verified. La brecha es la señal de contaminación.

Puntuaciones de abril de 2026:

  • Claude Opus 4.7 en Pro: 64.3% (reportado con coordinación explícita de equipos de agentes; no se ha publicado ninguna fuente primaria de Anthropic todavía; considérese preliminar).
  • Verdent (andamio de agentes) en Verified: 76.1% pass@1 (informe técnico).
  • Puntuaciones brutas de frontera en Pro sin andamio de agentes: ~23-35% (artículo de SWE-bench Pro).

El aprendizaje: "superamos a SWE-bench Verified" ya no es evidencia de capacidad. Pro es la prueba decisiva actual. El andamiaje de equipos de agentes produce ganancias medibles en Pro (delta de ~30-40 puntos), lo que constituye uno de los argumentos empíricos más fuertes para la coordinación multiagente en 2026.

AAAI 2026 WMAC

AAAI 2026 Bridge Program — Workshop on Multi-Agent Coordination (https://multiagents.org/2026/). El punto focal de la comunidad en 2026 para la investigación de IA multiagente. Los artículos aceptados y las actas del taller son el lugar canónico para evaluar nuevos métodos; da prioridad a las afirmaciones aceptadas en WMAC sobre los preprints de arXiv para las decisiones de producción.

Lee las afirmaciones de los benchmarks con escepticismo — la lista de verificación de 2026

Cuando alguien afirme un resultado multiagente:

  1. ¿Qué benchmark, qué división (split)? La diferencia entre SWE-bench Verified vs Pro es enorme. Una cifra reportada en la división incorrecta no tiene valor.
  2. Comprobación de contaminación. ¿Se lanzó el benchmark después de la fecha límite de entrenamiento del modelo? Si no es así, tómalo con cautela.
  3. Comparación con baselines. Frente a baseline de LLM único, frente a aleatorio y frente a trabajos multiagente anteriores. No "frente a una versión sin ajustar del mismo sistema".
  4. Significación estadística. N ensayos, valor p, intervalo de confianza. Los modelos de frontera presentan una alta varianza; las ejecuciones únicas inducen a error.
  5. Diversidad de tareas. ¿Una tarea o muchas? La generalización es lo que importa para la producción.
  6. Divulgación de costos. Tokens por tarea, tiempo de reloj. Una solución del 90% a 20 veces el costo es una decisión de negocios, no una afirmación de capacidad.

Lo que ninguno de los benchmarks mide bien

  • Coordinación de largo horizonte. Interacciones de días en tiempo real. Todos los benchmarks actuales son de corta duración.
  • Resiliencia adversaria. ¿Qué sucede cuando un agente es malicioso o está comprometido?
  • Desvío bajo despliegue. Los benchmarks son estáticos; las distribuciones de producción cambian.
  • Rendimiento normalizado por costo. La mayoría de los benchmarks reportan precisión bruta, no precisión por dólar.

Construir tu propio benchmark interno para el eje que realmente te interesa suele ser la decisión correcta.

Build It

El archivo code/main.py es una demostración no interactiva:

  • Simula 3 sistemas multiagente en una tarea sencilla.
  • Calcula métricas de hitos (milestones) al estilo MARBLE para cada uno.
  • Realiza una comprobación de contaminación reteniendo tareas de un conjunto de "entrenamiento".
  • Compara explícitamente con un baseline aleatorio.
  • Imprime una tarjeta de puntuación de afirmaciones del benchmark.

Ejecuta:

python3 code/main.py

Resultado esperado: tarjeta de puntuación del sistema con precisión bruta, logro de hitos, costo por tarea, delta frente al baseline aleatorio y una nota de comprobación de contaminación.

Use It

El archivo outputs/skill-benchmark-reader.md lee cualquier afirmación de benchmark multiagente y aplica la lista de verificación de escrutinio. Salida: una calificación y advertencias.

Ship It

Disciplina de evaluación en producción:

  • Construye un benchmark interno que refleje tu distribución real de producción. Los benchmarks públicos informan, pero no sustituyen.
  • Incluye un baseline aleatorio en cada comparación. Si no puedes superar al aleatorio por un margen amplio en una tarea de coordinación, la tarea puede estar mal planteada.
  • Reporta el costo junto con la precisión. Costo de tokens y tiempo de reloj. Los equipos de operaciones necesitan ambos.
  • Reconstruye el benchmark trimestralmente. La distribución de producción cambia; los benchmarks desactualizados inducen a error.
  • Evita el sobreajuste (overfitting) en benchmarks publicados. Si tu equipo se optimiza específicamente para los números de SWE-bench Pro, tendrás una regresión en producción.

Ejercicios

  1. Ejecuta code/main.py. Identifica cuál de los tres sistemas simulados tiene el mejor costo por hito. ¿Coincide con el sistema de mayor precisión bruta?
  2. Lee MultiAgentBench (arXiv:2503.01935). Para tu propio dominio de tareas, decide cuál de las cuatro topologías recomendaría MARBLE. Justifica a partir de los resultados del artículo.
  3. Lee el artículo de SWE-bench Pro. ¿Qué lo hace específicamente resistente a la contaminación? ¿Podría aplicarse la misma técnica a otros benchmarks que te interesen?
  4. Lee el hallazgo de COMMA sobre coordinación multimodal. Diseña una tarea simple de coordinación multimodal que puedas agregar a tu benchmark interno. ¿Qué contaría como una señal útil?
  5. Aplica la lista de verificación de afirmaciones de benchmark al resultado principal de un artículo multiagente reciente. ¿Qué calificación le darías a la afirmación?

Términos Clave

Término Lo que dice la gente Lo que realmente significa
MARBLE "MultiAgentBench" ACL 2025; topologías de estrella/cadena/árbol/grafo con KPIs de hitos.
COMMA "Benchmark multimodal" Coordinación multimodal con información asimétrica; los modelos de frontera luchan contra el aleatorio.
MedAgentBoard "Prueba de estrés de dominio" Cuatro categorías médicas; a menudo concluye que el multiagente no domina al LLM único.
AgentArch "Benchmark empresarial" Herramientas + memoria + orquestación estructurados en capas.
SWE-bench Pro "Resistente a la contaminación" 1865 problemas, 41 repos; ~23% frente a 70%+ en Verified (la señal de contaminación).
Logro de hitos "Crédito parcial" Benchmarks que recompensan el progreso, no solo el éxito final.
Contaminación "Fuga del benchmark en el entrenamiento" Post-lanzamiento, los benchmarks entran en los corpora de entrenamiento; las puntuaciones se inflan.
WMAC "AAAI 2026 Bridge Program" Workshop on Multi-Agent Coordination; punto focal de la comunidad.

Lectura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).