Phase 16 - Lesson 15

Votação, Autoconsistência e Topologias de Debate

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

A agregação mais econômica: amostrar N agentes independentes e realizar votação por maioria. A autoconsistência (self-consistency) de Wang et al. 2022 fez isso com um único modelo amostrado N vezes. Sistemas multiagentes estendem essa ideia com agentes heterogêneos para escapar da monocultura — diferentes modelos, diferentes prompts, diferentes temperaturas e diferentes contextos. Além do voto por maioria, a topologia do debate é importante: o MultiAgentBench (arXiv:2503.01935, ACL 2025) avaliou coordenação em estrela, cadeia, árvore e grafo, constatando que o grafo é melhor para tarefas de pesquisa, mas apresenta um "custo de coordenação" (coordination tax) após cerca de 4 agentes. O AgentVerse (ICLR 2024) documenta dois comportamentos emergentes — voluntarismo e conformidade — sendo que a conformidade representa tanto um recurso (alcançar consenso) quanto um risco (pensamento de grupo ou groupthink, Lição 24). Esta lição mapeia o espaço de topologias, constrói cada variante e mede o custo de coordenação.

Tipo: Aprenda + Construa Linguagens: Python (stdlib) Pré-requisitos: Phase 16 · 04 (Primitive Model), Phase 16 · 07 (Society of Mind and Debate), Phase 16 · 14 (Consensus and BFT) Tempo: ~75 minutos

Problema

O debate pode melhorar a precisão (Du et al., arXiv:2305.14325). Ele também pode degradá-la. O sucesso do debate depende de quatro escolhas estruturais:

Quem conversa com quem (topologia).
Quantidade de rodadas (Du 2023: tanto rodadas quanto agentes influenciam de forma independente).
Se os agentes são heterogêneos (diferentes modelos base evitam a monocultura).
Se existe uma voz adversarial presente (steel-manning vs. straw-manning).

Equipes que simplesmente aplicam "executar 5 agentes e votar" em uma tarefa muitas vezes obtêm resultados piores do que com um único agente. Essas falhas não são aleatórias; elas estão diretamente ligadas à topologia e à heterogeneidade. Esta lição apresenta o mapa dessas topologias.

Conceito

Autoconsistência, a linha de base de modelo único

Wang et al. 2022 ("Self-Consistency Improves Chain of Thought Reasoning") amostraram o mesmo modelo N vezes com temperatura > 0 e votaram por maioria nos caminhos de raciocínio. O resultado no GSM8K: ganhos significativos com N=40 amostras em relação à decodificação gananciosa (greedy decode) de uma única execução. A autoconsistência é a precursora da votação multiagente em modelos individuais.

Limitação: a autoconsistência usa apenas um modelo base. Os erros são correlacionados por definição. Se o modelo tiver um viés sistemático, todas as N amostras o compartilharão.

Voto multiagente, a extensão heterogênea

Substitua N amostras por N agentes diferentes. Diferentes modelos base (Claude, GPT, Llama), diferentes prompts, diferentes acessos a ferramentas. O benefício: erros não correlacionados. O custo: modelos diferentes custam valores diferentes; coordená-los adiciona sobrecarga de processamento.

O termo acadêmico de 2026 para o debate heterogêneo é A-HMAD — Adversarial Heterogeneous Multi-Agent Debate. Embora não seja adotado universalmente, artigos usam esse termo para se referir a "debates entre modelos diferentes, o que reduz erros correlacionados gerados pelo colapso da monocultura".

As quatro topologias

star                chain               tree                graph
 
    ┌─A─┐           A─B─C─D         ┌──A──┐              A───B
    │   │                           │     │              │ × │
    B   C                           B     C              D───C
    │   │                          / \   / \
    D   E                         D   E F   G           (fully connected)

Estrela (Star): um hub central; todos os outros comunicam-se apenas com ele. Equivalente a supervisor-trabalhador sem canal de comunicação lateral. Cadeia (Chain): linear; cada agente vê a saída do agente anterior. Semelhante a uma esteira de processamento (pipeline). Árvore (Tree): hierárquica; usada por sistemas hierárquicos de agentes (Lição 06). Grafo (Graph): todos com todos. Inclui a topologia de clique totalmente conectado e grafos direcionados acíclicos (DAGs) arbitrários.

O custo de coordenação (MultiAgentBench)

O MultiAgentBench (MARBLE, ACL 2025, arXiv:2503.01935) avaliou as topologias estrela, cadeia, árvore e grafo em um conjunto de tarefas que incluiu pesquisa, codificação e planejamento. Principais resultados medidos:

A topologia em grafo vence em tarefas de pesquisa. A informação flui de todos para todos; os agentes podem criticar o trabalho uns dos outros.
A topologia em estrela vence em tarefas factuais de resposta rápida. O hub filtra e consolida.
A topologia em cadeia vence em pipelines de etapas sequenciais (refinamento em etapas).
O custo de coordenação surge após cerca de 4 agentes na topologia em grafo. O tempo total de execução (wall-clock) e o consumo de tokens crescem mais rápido do que a melhoria na qualidade.

Esse teto de 4 agentes é empírico, não conceitual. Ele reflete a capacidade de contexto de LLMs em 2026: o contexto de cada agente fica cheio com as respostas dos pares, e o valor marginal de adicionar o agente N+1 despenca assim que todos conseguem visualizar a contribuição de todos.

Estratégias de Debate Multiagente ("Should we be going MAD?")

arXiv:2311.17371 é a pesquisa de 2023 sobre estratégias MAD (Multi-Agent Debate). A principal conclusão replicada por outros estudos: variantes de MAD que são estruturalmente semelhantes à autoconsistência (amostragem independente + agregação) muitas vezes apresentam desempenho inferior ao da autoconsistência quando utilizam o mesmo orçamento. O debate auxilia principalmente quando os agentes são genuinamente heterogêneos e a dinâmica tem estrutura adversarial (um agente argumentando contra o outro).

Padrões emergentes do AgentVerse

O AgentVerse (ICLR 2024, https://proceedings.iclr.cc/paper_files/paper/2024/file/578e65cdee35d00c708d4c64bce32971-Paper-Conference.pdf) documenta dois comportamentos que surgem espontaneamente no debate multiagente, mesmo sem design explícito:

Voluntariado. Um agente se oferece para ajudar ("posso cuidar da próxima etapa") sem ser solicitado. Útil: distribui o trabalho para o agente mais capacitado para aquela tarefa.
Conformidade. Um agente altera sua posição para concordar com um crítico, mesmo quando o crítico está errado. Esta é a versão do debate para a bajulação (Lição 14).

A conformidade é a razão pela qual debater até haver consenso premia os agentes mais agressivos. Limitar as rodadas e usar um juiz separado ajuda a mitigar esse problema.

Heterogeneidade: o verdadeiro ajuste para precisão

Um padrão prático na literatura de 2024-2026: substituir um de seus N agentes por um modelo base diferente gera uma melhoria maior na precisão do que aumentar o valor de N em 1. A intuição por trás disso é a monocultura — cada nova fonte de erro independente vale mais do que uma amostra correlacionada adicional.

No limite, a heterogeneidade supera a quantidade. Três modelos diferentes superam cinco cópias do mesmo modelo na maioria das tarefas com respostas factuais objetivas.

Métodos de júri

O framework Sibyl (citado na literatura de Minsky-LLM) formaliza um "júri" — um pequeno grupo de agentes especializados que refinam respostas votando em cada etapa. Diferente da votação simples por maioria, o júri tem papéis: um agente questiona, outro fornece contexto e outro pontua a plausibilidade. Júris são uma alternativa intermediária entre votação simples (barata, propensa à monocultura) e debate multiagente completo (caro, propenso à conformidade).

Quando o voto com debate domina

A questão tem uma resposta factual absoluta (fatos, matemática, comportamento de código). A convergência de votos é significativa.
Agentes podem acessar diferentes fontes ou ferramentas (heterogeneidade disponível).
As rodadas são limitadas (2-3 normalmente) e há um juiz ou verificador separado.
O orçamento permite de 3 a 5 agentes. Acima de 5-7 na topologia em grafo, o custo de coordenação domina.

Quando o voto com debate prejudica

A questão envolve opiniões ou julgamentos subjetivos. Os agentes convergem para a resposta que parecer mais confiante, não para a mais correta.
Todos os agentes compartilham o mesmo modelo base. A monocultura torna o consenso sem sentido.
As rodadas não têm limite. A conformidade sempre vence nesses casos.
A tarefa é simples. Um único agente com autoconsistência a N=5 é mais barato e igualmente preciso.

Construa

code/main.py implementa:

run_star(agents, hub, question) — o hub consulta cada trabalhador e agrega as respostas.
run_chain(agents, question) — refinamento sequencial.
run_tree(root, children, question) — hierárquico com agregação de profundidade 2.
run_graph(agents, question, rounds) — debate de todos para todos com rodadas limitadas.
Um ajuste de heterogeneidade programado: cada agente tem um error_bias (viés de erro) que indica sua tendência a falhas sistemáticas.
Uma estrutura de medição que executa cada topologia a N=3, 5, 7 e relata (precisão, total_tokens, latência_simulada).

Execute:

python3 code/main.py

Saída esperada: uma tabela contendo topologia × N → (precisão, tokens, latência). O grafo vence a N=3-5 em tarefas de estilo pesquisa; a estrela vence em tarefas factuais rápidas; o grafo a N=7 exibe o custo de coordenação (a latência cresce mais rápido do que a precisão).

Use

O outputs/skill-topology-picker.md é uma habilidade que lê a descrição de uma tarefa e recomenda uma topologia (estrela, cadeia, árvore ou grafo), um número N de agentes, um perfil de heterogeneidade (modelos base a utilizar) e um limite de rodadas.

Coloque em Produção

Para qualquer conjunto de agentes:

Comece com autoconsistência a N=5 usando um modelo base forte. Essa é sua linha de base econômica.
Mude para votação heterogênea a N=3 se a precisão for crítica. Meça a diferença.
Apenas mude para a topologia de debate se a tarefa tiver estrutura adequada (pesquisa, múltiplas etapas) e for viável limitar as rodadas.
Sempre registre o cluster minoritário. Quando uma minoria está consistentemente correta, você tem um sinal claro de diversidade.
Monitore tempo de resposta e consumo de tokens juntamente com a precisão. "Maior precisão a um custo 10 vezes maior" é uma decisão de negócios.

Exercícios

Execute code/main.py. Plote a curva do custo de coordenação para a topologia em grafo: precisão vs N, tokens vs N. Em qual valor de N a curva muda de inclinação?
Implemente a estratégia A-HMAD: três agentes com vieses de erro intencionalmente diferentes. Como a linha de base de vieses idênticos se compara à estratégia A-HMAD no ataque de monocultura da Lição 14?
Adicione um papel de "juiz" à topologia em grafo que não vota, apenas pontua o consenso final. Isso altera o comportamento emergente de conformidade?
Leia o artigo do AgentVerse (ICLR 2024). Identifique qual comportamento emergente sua implementação exibe de forma mais marcante. É possível provocar o comportamento oposto alterando o prompt?
Leia a Seção 4 (experimentos de topologia) do MultiAgentBench (arXiv:2503.01935). Reproduza o resultado "grafo vence em pesquisa" em uma das tarefas do artigo usando sua estrutura de medição.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Self-consistency	"Amostre N vezes, vote"	Wang 2022. Modelo único, N amostras com temperatura>0, voto por maioria nos caminhos de raciocínio.
Heterogeneity	"Diferentes modelos"	Conjunto de diferentes modelos base ou famílias de prompts. Evita a monocultura.
MAD	"Debate multiagente"	Termo geral para agentes que trocam críticas ao longo de rodadas. Veja Du 2023.
A-HMAD	"MAD heterogêneo adversarial"	Variante de MAD que enfatiza modelos diferentes + estrutura adversarial.
Topology	"Quem fala com quem"	Estrela, cadeia, árvore, grafo. Define o fluxo de informações.
Coordination tax	"Retornos decrescentes"	Acima de ~4 agentes em grafo, o custo cresce mais rápido do que a qualidade.
Volunteer behavior	"Ajuda espontânea"	Padrão emergente no AgentVerse: um agente se oferece para dar o próximo passo.
Conformity behavior	"Acordo sob pressão"	Padrão emergente no AgentVerse: um agente alinha-se com o crítico.
Jury	"Pequeno comitê especializado"	Conjunto estilo Sibyl com papéis (questionador, contexto, avaliador).

Leituras Adicionais

Wang et al. — Self-Consistency Improves Chain of Thought Reasoning — linha de base de modelo único
Du et al. — Improving Factuality and Reasoning via Multiagent Debate — tanto agentes quanto rodadas influenciam de forma independente
MultiAgentBench / MARBLE — benchmark de topologia mostrando que grafo é melhor para pesquisa e cadeia para pipelines
Should we be going MAD? — pesquisa sobre estratégias de MAD; constata que MAD muitas vezes perde para a autoconsistência com o mesmo orçamento
AgentVerse (ICLR 2024) — padrões emergentes de voluntarismo e conformidade
MARBLE repo — implementação de referência do benchmark