Phase 16 - Lesson 24

Benchmarks de Avaliação e Coordenação

Cinco benchmarks de 2025-2026 cobrem o espaço de avaliação de sistemas multiagentes. O MultiAgentBench / MARBLE (ACL 2025, arXiv:2503.01935) avalia as topologias estrela (star), cadeia (chain), árvore (tree) e grafo (graph) com KPIs baseados em marcos (milestones); a topologia de grafo é melhor para pesquisa, com o planejamento cognitivo adicionando ~3% de cumprimento de marcos. O COMMA avalia a coordenação multimodal com informações assimétricas; modelos de última geração, incluindo o GPT-4o, têm dificuldades para superar um baseline aleatório. O MedAgentBoard (arXiv:2505.12371) cobre quatro categorias de tarefas médicas e frequentemente constata que a abordagem multiagente não supera um LLM único. O AgentArch (arXiv:2509.10769) realiza benchmarks de arquiteturas de agentes corporativos que combinam uso de ferramentas + memória + orquestração. O SWE-bench Pro (arXiv:2509.16941) possui 1865 problemas em 41 repositórios que abrangem aplicativos corporativos, serviços B2B e ferramentas de desenvolvedores; modelos de fronteira pontuam ~23% no Pro contra 70%+ no Verified — um choque de realidade sobre a contaminação. O Claude Opus 4.7 (abril de 2026) é relatado com 64,3% no Pro com coordenação explícita de equipes de agentes (nenhuma fonte primária da Anthropic foi publicada ainda — trate como preliminar); o Verdent (scaffold de agentes) atinge 76,1% pass@1 no Verified (relatório técnico do Verdent). O AAAI 2026 Bridge Program WMAC (https://multiagents.org/2026/) é o ponto focal da comunidade em 2026. Esta lição constrói sobre as métricas do MARBLE, realiza uma varredura de topologia vs métrica e consolida a regra de que "apenas passar no SWE-bench Verified não é evidência de generalização".

Tipo: Aprenda Linguagens: Python (stdlib) Pré-requisitos: Fase 16 · 15 (Topologia de Votação e Debate), Fase 16 · 23 (Modos de Falha) Tempo: ~75 minutos

Problema

Quando um artigo afirma "nosso sistema multiagente é melhor", a pergunta é: melhor do que o quê, em qual tarefa e medido como? A era de 2023-2024 da avaliação de multiagentes era o caos — cada um escolhia suas próprias métricas, seus próprios baselines e seus próprios conjuntos de tarefas. Os benchmarks de 2025-2026 impuseram estrutura.

Sem benchmarks compartilhados, você não consegue comparar dois sistemas multiagentes de maneira significativa. Pior ainda, sem benchmarks de retenção (hold-out), os modelos de fronteira podem sofrer contaminação. O SWE-bench Verified tornou-se parcialmente contaminado nos corpora de treinamento em meados de 2025; as pontuações dos modelos de fronteira inflaram; o Pro foi projetado como um choque de realidade livre de contaminação.

Esta lição enumera os cinco benchmarks canônicos de 2026, indica o que cada um mede e ensina você a ler as alegações de benchmarks com ceticismo.

Conceito

MultiAgentBench (MARBLE) — ACL 2025

arXiv:2503.01935. Avalia quatro topologias de coordenação (estrela, cadeia, árvore, grafo) em tarefas de pesquisa, codificação e planejamento. KPIs baseados em marcos acompanham o progresso parcial, em vez de focar apenas no sucesso final.

Resultados medidos:

  • Topologia em grafo é a melhor para cenários de pesquisa; oferece suporte a críticas any-to-any (todos contra todos).
  • Topologia em cadeia é melhor para codificação com refinamento passo a passo.
  • Topologia em estrela é melhor para consolidação rápida de fatos.
  • O imposto de coordenação aparece após ~4 agentes na topologia em grafo.
  • O planejamento cognitivo adiciona ~3% de cumprimento de marcos nas topologias.

Use quando: você quiser comparar topologias de coordenação de forma equivalente. O repositório do MARBLE (https://github.com/ulab-uiuc/MARBLE) fornece o avaliador.

COMMA — informação assimétrica multimodal

Cobre tarefas em que os agentes possuem diferentes modalidades de observação e devem se coordenar sem compartilhamento total de informações. O resultado relatado é desconfortável: modelos de fronteira, incluindo o GPT-4o, têm dificuldades para superar um baseline aleatório na colaboração agente-agente no COMMA. O sinal indica que as modalidades multiagentes são subtreinadas e subavaliadas — LLMs gerenciam a cooperação unimodal de forma razoável, mas a coordenação multimodal entra em colapso.

Use quando: seu sistema tiver coordenação multimodal ou com informações assimétricas. O resultado nulo do COMMA serve como um aviso para medir antes de fazer alegações.

MedAgentBoard — teste de estresse de domínio

arXiv:2505.12371. Quatro categorias de tarefas médicas: diagnóstico, planejamento de tratamento, geração de relatórios e comunicação com pacientes. Compara a abordagem multiagente vs LLM único vs sistemas convencionais baseados em regras.

Constatação: o multiagente NÃO domina o LLM único na maioria das categorias. A vantagem do multiagente é estreita — a decomposição de tarefas ajuda quando as subtarefas são claramente separáveis (diagnóstico + tratamento); ela prejudica quando a sobrecarga de coordenação excede o ganho de especialização (geração de relatórios).

Use quando: seu domínio tiver baselines claros de LLM único. Se a lição do MedAgentBoard se generalizar, muitos sistemas multiagentes propostos estão superdimensionados na engenharia.

AgentArch — arquiteturas corporativas

arXiv:2509.10769. Ambientes corporativos com uso de ferramentas, memória e orquestração em camadas. O benchmark isola a contribuição de cada camada: quanto ajuda adicionar ferramentas? Adicionar memória? Adicionar orquestração multiagente?

Use quando: você estiver projetando uma stack de agentes corporativos e precisar justificar cada camada. O AgentArch ajuda a evitar a aquisição de recursos cujo valor você não consegue medir.

SWE-bench Pro — o choque de realidade

arXiv:2509.16941. 1865 problemas em 41 repositórios cobrindo aplicativos corporativos, serviços B2B e ferramentas de desenvolvedor. Projetado para ser livre de contaminação com limites de treinamento mais recentes. Modelos de fronteira pontuam ~23% no Pro contra 70%+ no Verified. A lacuna é o sinal de contaminação.

Pontuações de abril de 2026:

  • Claude Opus 4.7 no Pro: 64,3% (relatado com coordenação explícita de equipes de agentes; nenhuma fonte primária da Anthropic foi publicada ainda — trate como preliminar).
  • Verdent (scaffold de agentes) no Verified: 76,1% pass@1 (relatório técnico).
  • Pontuações brutas de fronteira no Pro sem scaffold de agentes: ~23-35% (artigo do SWE-bench Pro).

O aprendizado: "superamos o SWE-bench Verified" não é mais evidência de capacidade. O Pro é o teste decisivo atual. O scaffolding de equipes de agentes produz ganhos mensuráveis no Pro (delta de ~30-40 pontos), o que constitui um dos argumentos empíricos mais fortes para a coordenação multiagente em 2026.

AAAI 2026 WMAC

AAAI 2026 Bridge Program — Workshop on Multi-Agent Coordination (https://multiagents.org/2026/). O ponto focal da comunidade em 2026 para pesquisa de IA multiagente. Os artigos aceitos e os anais do workshop são o local canônico para avaliar novos métodos; dê preferência a alegações aceitas no WMAC em vez de preprints do arXiv para decisões de produção.

Leia alegações de benchmarks com ceticismo — a lista de verificação de 2026

Quando alguém alegar um resultado multiagente:

  1. Qual benchmark, qual divisão (split)? A diferença entre SWE-bench Verified vs Pro é enorme. Um número relatado na divisão errada não tem valor.
  2. Verificação de contaminação. O benchmark foi lançado após a data limite de treinamento do modelo? Se não, trate com cautela.
  3. Comparação com baselines. Contra baseline de LLM único, contra aleatório e contra trabalhos multiagentes anteriores. Não "contra uma versão não ajustada do mesmo sistema".
  4. Significância estatística. N tentativas, valor-p, intervalo de confiança. Os modelos de fronteira apresentam alta variância; execuções únicas enganam.
  5. Diversidade de tarefas. Uma tarefa ou muitas? A generalização é o que importa para a produção.
  6. Divulgação de custos. Tokens por tarefa, tempo de relógio. Uma solução de 90% a 20x o custo é uma decisão de negócios, não uma alegação de capacidade.

O que nenhum dos benchmarks mede bem

  • Coordenação de longo horizonte. Interações de dias em tempo real. Todos os benchmarks atuais têm curta duração.
  • Resiliência adversária. O que acontece quando um agente é malicioso ou está comprometido?
  • Desvio sob implantação. Os benchmarks são estáticos; as distribuições de produção mudam.
  • Desempenho normalizado pelo custo. A maioria dos benchmarks relata a precisão bruta, não a precisão por dólar gasto.

Construir seu próprio benchmark interno para o eixo que você realmente se importa costuma ser a decisão correta.

Build It

O arquivo code/main.py é uma demonstração não interativa:

  • Simula 3 sistemas multiagentes em uma tarefa simples de teste.
  • Computes métricas de marcos (milestones) no estilo MARBLE para cada um.
  • Realiza uma checagem de contaminação retendo tarefas de um conjunto de "treinamento".
  • Compara explicitamente com um baseline aleatório.
  • Imprime um cartão de pontuação de alegações do benchmark.

Execute:

python3 code/main.py

Saída esperada: cartão de pontuação do sistema com precisão bruta, cumprimento de marcos, custo por tarefa, delta em relação ao baseline aleatório e uma nota de verificação de contaminação.

Use It

O arquivo outputs/skill-benchmark-reader.md lê qualquer alegação de benchmark multiagente e aplica a lista de verificação de escrutínio. Saída: uma nota e ressalvas.

Ship It

Disciplina de avaliação em produção:

  • Construa um benchmark interno que reflita sua distribuição real de produção. Benchmarks públicos informam, mas não substituem.
  • Inclua um baseline aleatório em cada comparação. Se você não conseguir superar o aleatório por uma grande margem em uma tarefa de coordenação, a tarefa pode estar mal formulada.
  • Relate o custo ao lado da precisão. Custo de tokens e tempo de relógio. As equipes de operações precisam de ambos.
  • Reconstrua o benchmark trimestralmente. A distribuição de produção muda; benchmarks desatualizados induzem ao erro.
  • Evite o overfitting em benchmarks publicados. Se a sua equipe estiver otimizando especificamente para os números do SWE-bench Pro, você terá regressão na produção.

Exercícios

  1. Execute code/main.py. Identifique qual dos três sistemas simulados apresenta o melhor custo por marco. Ele coincide com o sistema de maior precisão bruta?
  2. Leia o MultiAgentBench (arXiv:2503.01935). Para o seu próprio domínio de tarefas, decida qual das quatro topologias o MARBLE recomendaria. Justifique com base nos resultados do artigo.
  3. Leia o artigo do SWE-bench Pro. O que especificamente o torna resistente à contaminação? A mesma técnica poderia ser aplicada a outros benchmarks com os quais você se importa?
  4. Leia a constatação do COMMA sobre coordenação multimodal. Desenhe uma tarefa simples de coordenação multimodal que você poderia adicionar ao seu benchmark interno. O que contaria como um sinal útil?
  5. Aplique a lista de verificação de alegações de benchmark ao resultado principal de um artigo multiagente recente. Qual nota você daria para a alegação?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
MARBLE "MultiAgentBench" ACL 2025; topologias estrela/cadeia/árvore/grafo com KPIs de marcos.
COMMA "Benchmark multimodal" Coordenação multimodal com informação assimétrica; modelos de fronteira lutam contra o aleatório.
MedAgentBoard "Teste de estresse de domínio" Quatro categorias médicas; frequentemente constata que multiagente não domina LLM único.
AgentArch "Benchmark corporativo" Ferramentas + memória + orquestração em camadas.
SWE-bench Pro "Resistente à contaminação" 1865 problemas, 41 repositórios; ~23% vs 70%+ no Verified (o sinal de contaminação).
Cumprimento de marcos "Crédito parcial" Benchmarks que recompensam o progresso, não apenas o sucesso final.
Contaminação "Benchmark vazou no treinamento" Pós-lançamento, os benchmarks entram nos corpora de treinamento; as pontuações inflam.
WMAC "AAAI 2026 Bridge Program" Workshop on Multi-Agent Coordination; ponto focal da comunidade.

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).