Phase 16 - Lesson 24

Benchmarks de Avaliação e Coordenação

Cinco benchmarks de 2025-2026 cobrem o espaço de avaliação de sistemas multiagentes. O MultiAgentBench / MARBLE (ACL 2025, arXiv:2503.01935) avalia as topologias estrela (star), cadeia (chain), árvore (tree) e grafo (graph) com KPIs baseados em marcos (milestones); a topologia de grafo é melhor para pesquisa, com o planejamento cognitivo adicionando ~3% de cumprimento de marcos. O COMMA avalia a coordenação multimodal com informações assimétricas; modelos de última geração, incluindo o GPT-4o, têm dificuldades para superar um baseline aleatório. O MedAgentBoard (arXiv:2505.12371) cobre quatro categorias de tarefas médicas e frequentemente constata que a abordagem multiagente não supera um LLM único. O AgentArch (arXiv:2509.10769) realiza benchmarks de arquiteturas de agentes corporativos que combinam uso de ferramentas + memória + orquestração. O SWE-bench Pro (arXiv:2509.16941) possui 1865 problemas em 41 repositórios que abrangem aplicativos corporativos, serviços B2B e ferramentas de desenvolvedores; modelos de fronteira pontuam ~23% no Pro contra 70%+ no Verified — um choque de realidade sobre a contaminação. O Claude Opus 4.7 (abril de 2026) é relatado com 64,3% no Pro com coordenação explícita de equipes de agentes (nenhuma fonte primária da Anthropic foi publicada ainda — trate como preliminar); o Verdent (scaffold de agentes) atinge 76,1% pass@1 no Verified (relatório técnico do Verdent). O AAAI 2026 Bridge Program WMAC (https://multiagents.org/2026/) é o ponto focal da comunidade em 2026. Esta lição constrói sobre as métricas do MARBLE, realiza uma varredura de topologia vs métrica e consolida a regra de que "apenas passar no SWE-bench Verified não é evidência de generalização".

Tipo: Aprenda Linguagens: Python (stdlib) Pré-requisitos: Fase 16 · 15 (Topologia de Votação e Debate), Fase 16 · 23 (Modos de Falha) Tempo: ~75 minutos

Problema

Quando um artigo afirma "nosso sistema multiagente é melhor", a pergunta é: melhor do que o quê, em qual tarefa e medido como? A era de 2023-2024 da avaliação de multiagentes era o caos — cada um escolhia suas próprias métricas, seus próprios baselines e seus próprios conjuntos de tarefas. Os benchmarks de 2025-2026 impuseram estrutura.

Sem benchmarks compartilhados, você não consegue comparar dois sistemas multiagentes de maneira significativa. Pior ainda, sem benchmarks de retenção (hold-out), os modelos de fronteira podem sofrer contaminação. O SWE-bench Verified tornou-se parcialmente contaminado nos corpora de treinamento em meados de 2025; as pontuações dos modelos de fronteira inflaram; o Pro foi projetado como um choque de realidade livre de contaminação.

Esta lição enumera os cinco benchmarks canônicos de 2026, indica o que cada um mede e ensina você a ler as alegações de benchmarks com ceticismo.

Conceito

MultiAgentBench (MARBLE) — ACL 2025

arXiv:2503.01935. Avalia quatro topologias de coordenação (estrela, cadeia, árvore, grafo) em tarefas de pesquisa, codificação e planejamento. KPIs baseados em marcos acompanham o progresso parcial, em vez de focar apenas no sucesso final.

Resultados medidos:

Topologia em grafo é a melhor para cenários de pesquisa; oferece suporte a críticas any-to-any (todos contra todos).
Topologia em cadeia é melhor para codificação com refinamento passo a passo.
Topologia em estrela é melhor para consolidação rápida de fatos.
O imposto de coordenação aparece após ~4 agentes na topologia em grafo.
O planejamento cognitivo adiciona ~3% de cumprimento de marcos nas topologias.

Use quando: você quiser comparar topologias de coordenação de forma equivalente. O repositório do MARBLE (https://github.com/ulab-uiuc/MARBLE) fornece o avaliador.

COMMA — informação assimétrica multimodal

Cobre tarefas em que os agentes possuem diferentes modalidades de observação e devem se coordenar sem compartilhamento total de informações. O resultado relatado é desconfortável: modelos de fronteira, incluindo o GPT-4o, têm dificuldades para superar um baseline aleatório na colaboração agente-agente no COMMA. O sinal indica que as modalidades multiagentes são subtreinadas e subavaliadas — LLMs gerenciam a cooperação unimodal de forma razoável, mas a coordenação multimodal entra em colapso.

Use quando: seu sistema tiver coordenação multimodal ou com informações assimétricas. O resultado nulo do COMMA serve como um aviso para medir antes de fazer alegações.

MedAgentBoard — teste de estresse de domínio

arXiv:2505.12371. Quatro categorias de tarefas médicas: diagnóstico, planejamento de tratamento, geração de relatórios e comunicação com pacientes. Compara a abordagem multiagente vs LLM único vs sistemas convencionais baseados em regras.

Constatação: o multiagente NÃO domina o LLM único na maioria das categorias. A vantagem do multiagente é estreita — a decomposição de tarefas ajuda quando as subtarefas são claramente separáveis (diagnóstico + tratamento); ela prejudica quando a sobrecarga de coordenação excede o ganho de especialização (geração de relatórios).

Use quando: seu domínio tiver baselines claros de LLM único. Se a lição do MedAgentBoard se generalizar, muitos sistemas multiagentes propostos estão superdimensionados na engenharia.

AgentArch — arquiteturas corporativas

arXiv:2509.10769. Ambientes corporativos com uso de ferramentas, memória e orquestração em camadas. O benchmark isola a contribuição de cada camada: quanto ajuda adicionar ferramentas? Adicionar memória? Adicionar orquestração multiagente?

Use quando: você estiver projetando uma stack de agentes corporativos e precisar justificar cada camada. O AgentArch ajuda a evitar a aquisição de recursos cujo valor você não consegue medir.

SWE-bench Pro — o choque de realidade

arXiv:2509.16941. 1865 problemas em 41 repositórios cobrindo aplicativos corporativos, serviços B2B e ferramentas de desenvolvedor. Projetado para ser livre de contaminação com limites de treinamento mais recentes. Modelos de fronteira pontuam ~23% no Pro contra 70%+ no Verified. A lacuna é o sinal de contaminação.

Pontuações de abril de 2026:

Claude Opus 4.7 no Pro: 64,3% (relatado com coordenação explícita de equipes de agentes; nenhuma fonte primária da Anthropic foi publicada ainda — trate como preliminar).
Verdent (scaffold de agentes) no Verified: 76,1% pass@1 (relatório técnico).
Pontuações brutas de fronteira no Pro sem scaffold de agentes: ~23-35% (artigo do SWE-bench Pro).

O aprendizado: "superamos o SWE-bench Verified" não é mais evidência de capacidade. O Pro é o teste decisivo atual. O scaffolding de equipes de agentes produz ganhos mensuráveis no Pro (delta de ~30-40 pontos), o que constitui um dos argumentos empíricos mais fortes para a coordenação multiagente em 2026.

AAAI 2026 WMAC

AAAI 2026 Bridge Program — Workshop on Multi-Agent Coordination (https://multiagents.org/2026/). O ponto focal da comunidade em 2026 para pesquisa de IA multiagente. Os artigos aceitos e os anais do workshop são o local canônico para avaliar novos métodos; dê preferência a alegações aceitas no WMAC em vez de preprints do arXiv para decisões de produção.

Leia alegações de benchmarks com ceticismo — a lista de verificação de 2026

Quando alguém alegar um resultado multiagente:

Qual benchmark, qual divisão (split)? A diferença entre SWE-bench Verified vs Pro é enorme. Um número relatado na divisão errada não tem valor.
Verificação de contaminação. O benchmark foi lançado após a data limite de treinamento do modelo? Se não, trate com cautela.
Comparação com baselines. Contra baseline de LLM único, contra aleatório e contra trabalhos multiagentes anteriores. Não "contra uma versão não ajustada do mesmo sistema".
Significância estatística. N tentativas, valor-p, intervalo de confiança. Os modelos de fronteira apresentam alta variância; execuções únicas enganam.
Diversidade de tarefas. Uma tarefa ou muitas? A generalização é o que importa para a produção.
Divulgação de custos. Tokens por tarefa, tempo de relógio. Uma solução de 90% a 20x o custo é uma decisão de negócios, não uma alegação de capacidade.

O que nenhum dos benchmarks mede bem

Coordenação de longo horizonte. Interações de dias em tempo real. Todos os benchmarks atuais têm curta duração.
Resiliência adversária. O que acontece quando um agente é malicioso ou está comprometido?
Desvio sob implantação. Os benchmarks são estáticos; as distribuições de produção mudam.
Desempenho normalizado pelo custo. A maioria dos benchmarks relata a precisão bruta, não a precisão por dólar gasto.

Construir seu próprio benchmark interno para o eixo que você realmente se importa costuma ser a decisão correta.

Build It

O arquivo code/main.py é uma demonstração não interativa:

Simula 3 sistemas multiagentes em uma tarefa simples de teste.
Computes métricas de marcos (milestones) no estilo MARBLE para cada um.
Realiza uma checagem de contaminação retendo tarefas de um conjunto de "treinamento".
Compara explicitamente com um baseline aleatório.
Imprime um cartão de pontuação de alegações do benchmark.

Execute:

python3 code/main.py

Saída esperada: cartão de pontuação do sistema com precisão bruta, cumprimento de marcos, custo por tarefa, delta em relação ao baseline aleatório e uma nota de verificação de contaminação.

Use It

O arquivo outputs/skill-benchmark-reader.md lê qualquer alegação de benchmark multiagente e aplica a lista de verificação de escrutínio. Saída: uma nota e ressalvas.

Ship It

Disciplina de avaliação em produção:

Construa um benchmark interno que reflita sua distribuição real de produção. Benchmarks públicos informam, mas não substituem.
Inclua um baseline aleatório em cada comparação. Se você não conseguir superar o aleatório por uma grande margem em uma tarefa de coordenação, a tarefa pode estar mal formulada.
Relate o custo ao lado da precisão. Custo de tokens e tempo de relógio. As equipes de operações precisam de ambos.
Reconstrua o benchmark trimestralmente. A distribuição de produção muda; benchmarks desatualizados induzem ao erro.
Evite o overfitting em benchmarks publicados. Se a sua equipe estiver otimizando especificamente para os números do SWE-bench Pro, você terá regressão na produção.

Exercícios

Execute code/main.py. Identifique qual dos três sistemas simulados apresenta o melhor custo por marco. Ele coincide com o sistema de maior precisão bruta?
Leia o MultiAgentBench (arXiv:2503.01935). Para o seu próprio domínio de tarefas, decida qual das quatro topologias o MARBLE recomendaria. Justifique com base nos resultados do artigo.
Leia o artigo do SWE-bench Pro. O que especificamente o torna resistente à contaminação? A mesma técnica poderia ser aplicada a outros benchmarks com os quais você se importa?
Leia a constatação do COMMA sobre coordenação multimodal. Desenhe uma tarefa simples de coordenação multimodal que você poderia adicionar ao seu benchmark interno. O que contaria como um sinal útil?
Aplique a lista de verificação de alegações de benchmark ao resultado principal de um artigo multiagente recente. Qual nota você daria para a alegação?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
MARBLE	"MultiAgentBench"	ACL 2025; topologias estrela/cadeia/árvore/grafo com KPIs de marcos.
COMMA	"Benchmark multimodal"	Coordenação multimodal com informação assimétrica; modelos de fronteira lutam contra o aleatório.
MedAgentBoard	"Teste de estresse de domínio"	Quatro categorias médicas; frequentemente constata que multiagente não domina LLM único.
AgentArch	"Benchmark corporativo"	Ferramentas + memória + orquestração em camadas.
SWE-bench Pro	"Resistente à contaminação"	1865 problemas, 41 repositórios; ~23% vs 70%+ no Verified (o sinal de contaminação).
Cumprimento de marcos	"Crédito parcial"	Benchmarks que recompensam o progresso, não apenas o sucesso final.
Contaminação	"Benchmark vazou no treinamento"	Pós-lançamento, os benchmarks entram nos corpora de treinamento; as pontuações inflam.
WMAC	"AAAI 2026 Bridge Program"	Workshop on Multi-Agent Coordination; ponto focal da comunidade.

Leitura Adicional

MultiAgentBench / MARBLE — Benchmark de topologia com KPIs baseados em marcos
MARBLE repository — Implementação de referência
MedAgentBoard — Teste de estresse de domínio; multiagente frequentemente não domina
AgentArch — Arquiteturas de agentes corporativos
SWE-bench leaderboards — Pontuações no Verified e Pro para modelos de fronteira
AAAI 2026 WMAC — O ponto focal da comunidade em 2026