Phase 16 - Lesson 15
Votação, Autoconsistência e Topologias de Debate
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
A agregação mais econômica: amostrar N agentes independentes e realizar votação por maioria. A autoconsistência (self-consistency) de Wang et al. 2022 fez isso com um único modelo amostrado N vezes. Sistemas multiagentes estendem essa ideia com agentes heterogêneos para escapar da monocultura — diferentes modelos, diferentes prompts, diferentes temperaturas e diferentes contextos. Além do voto por maioria, a topologia do debate é importante: o MultiAgentBench (arXiv:2503.01935, ACL 2025) avaliou coordenação em estrela, cadeia, árvore e grafo, constatando que o grafo é melhor para tarefas de pesquisa, mas apresenta um "custo de coordenação" (coordination tax) após cerca de 4 agentes. O AgentVerse (ICLR 2024) documenta dois comportamentos emergentes — voluntarismo e conformidade — sendo que a conformidade representa tanto um recurso (alcançar consenso) quanto um risco (pensamento de grupo ou groupthink, Lição 24). Esta lição mapeia o espaço de topologias, constrói cada variante e mede o custo de coordenação.
Tipo: Aprenda + Construa Linguagens: Python (stdlib) Pré-requisitos: Phase 16 · 04 (Primitive Model), Phase 16 · 07 (Society of Mind and Debate), Phase 16 · 14 (Consensus and BFT) Tempo: ~75 minutos
Problema
O debate pode melhorar a precisão (Du et al., arXiv:2305.14325). Ele também pode degradá-la. O sucesso do debate depende de quatro escolhas estruturais:
- Quem conversa com quem (topologia).
- Quantidade de rodadas (Du 2023: tanto rodadas quanto agentes influenciam de forma independente).
- Se os agentes são heterogêneos (diferentes modelos base evitam a monocultura).
- Se existe uma voz adversarial presente (steel-manning vs. straw-manning).
Equipes que simplesmente aplicam "executar 5 agentes e votar" em uma tarefa muitas vezes obtêm resultados piores do que com um único agente. Essas falhas não são aleatórias; elas estão diretamente ligadas à topologia e à heterogeneidade. Esta lição apresenta o mapa dessas topologias.
Conceito
Autoconsistência, a linha de base de modelo único
Wang et al. 2022 ("Self-Consistency Improves Chain of Thought Reasoning") amostraram o mesmo modelo N vezes com temperatura > 0 e votaram por maioria nos caminhos de raciocínio. O resultado no GSM8K: ganhos significativos com N=40 amostras em relação à decodificação gananciosa (greedy decode) de uma única execução. A autoconsistência é a precursora da votação multiagente em modelos individuais.
Limitação: a autoconsistência usa apenas um modelo base. Os erros são correlacionados por definição. Se o modelo tiver um viés sistemático, todas as N amostras o compartilharão.
Voto multiagente, a extensão heterogênea
Substitua N amostras por N agentes diferentes. Diferentes modelos base (Claude, GPT, Llama), diferentes prompts, diferentes acessos a ferramentas. O benefício: erros não correlacionados. O custo: modelos diferentes custam valores diferentes; coordená-los adiciona sobrecarga de processamento.
O termo acadêmico de 2026 para o debate heterogêneo é A-HMAD — Adversarial Heterogeneous Multi-Agent Debate. Embora não seja adotado universalmente, artigos usam esse termo para se referir a "debates entre modelos diferentes, o que reduz erros correlacionados gerados pelo colapso da monocultura".
As quatro topologias
star chain tree graph
┌─A─┐ A─B─C─D ┌──A──┐ A───B
│ │ │ │ │ × │
B C B C D───C
│ │ / \ / \
D E D E F G (fully connected)
Estrela (Star): um hub central; todos os outros comunicam-se apenas com ele. Equivalente a supervisor-trabalhador sem canal de comunicação lateral. Cadeia (Chain): linear; cada agente vê a saída do agente anterior. Semelhante a uma esteira de processamento (pipeline). Árvore (Tree): hierárquica; usada por sistemas hierárquicos de agentes (Lição 06). Grafo (Graph): todos com todos. Inclui a topologia de clique totalmente conectado e grafos direcionados acíclicos (DAGs) arbitrários.
O custo de coordenação (MultiAgentBench)
O MultiAgentBench (MARBLE, ACL 2025, arXiv:2503.01935) avaliou as topologias estrela, cadeia, árvore e grafo em um conjunto de tarefas que incluiu pesquisa, codificação e planejamento. Principais resultados medidos:
- A topologia em grafo vence em tarefas de pesquisa. A informação flui de todos para todos; os agentes podem criticar o trabalho uns dos outros.
- A topologia em estrela vence em tarefas factuais de resposta rápida. O hub filtra e consolida.
- A topologia em cadeia vence em pipelines de etapas sequenciais (refinamento em etapas).
- O custo de coordenação surge após cerca de 4 agentes na topologia em grafo. O tempo total de execução (wall-clock) e o consumo de tokens crescem mais rápido do que a melhoria na qualidade.
Esse teto de 4 agentes é empírico, não conceitual. Ele reflete a capacidade de contexto de LLMs em 2026: o contexto de cada agente fica cheio com as respostas dos pares, e o valor marginal de adicionar o agente N+1 despenca assim que todos conseguem visualizar a contribuição de todos.
Estratégias de Debate Multiagente ("Should we be going MAD?")
arXiv:2311.17371 é a pesquisa de 2023 sobre estratégias MAD (Multi-Agent Debate). A principal conclusão replicada por outros estudos: variantes de MAD que são estruturalmente semelhantes à autoconsistência (amostragem independente + agregação) muitas vezes apresentam desempenho inferior ao da autoconsistência quando utilizam o mesmo orçamento. O debate auxilia principalmente quando os agentes são genuinamente heterogêneos e a dinâmica tem estrutura adversarial (um agente argumentando contra o outro).
Padrões emergentes do AgentVerse
O AgentVerse (ICLR 2024, https://proceedings.iclr.cc/paper_files/paper/2024/file/578e65cdee35d00c708d4c64bce32971-Paper-Conference.pdf) documenta dois comportamentos que surgem espontaneamente no debate multiagente, mesmo sem design explícito:
- Voluntariado. Um agente se oferece para ajudar ("posso cuidar da próxima etapa") sem ser solicitado. Útil: distribui o trabalho para o agente mais capacitado para aquela tarefa.
- Conformidade. Um agente altera sua posição para concordar com um crítico, mesmo quando o crítico está errado. Esta é a versão do debate para a bajulação (Lição 14).
A conformidade é a razão pela qual debater até haver consenso premia os agentes mais agressivos. Limitar as rodadas e usar um juiz separado ajuda a mitigar esse problema.
Heterogeneidade: o verdadeiro ajuste para precisão
Um padrão prático na literatura de 2024-2026: substituir um de seus N agentes por um modelo base diferente gera uma melhoria maior na precisão do que aumentar o valor de N em 1. A intuição por trás disso é a monocultura — cada nova fonte de erro independente vale mais do que uma amostra correlacionada adicional.
No limite, a heterogeneidade supera a quantidade. Três modelos diferentes superam cinco cópias do mesmo modelo na maioria das tarefas com respostas factuais objetivas.
Métodos de júri
O framework Sibyl (citado na literatura de Minsky-LLM) formaliza um "júri" — um pequeno grupo de agentes especializados que refinam respostas votando em cada etapa. Diferente da votação simples por maioria, o júri tem papéis: um agente questiona, outro fornece contexto e outro pontua a plausibilidade. Júris são uma alternativa intermediária entre votação simples (barata, propensa à monocultura) e debate multiagente completo (caro, propenso à conformidade).
Quando o voto com debate domina
- A questão tem uma resposta factual absoluta (fatos, matemática, comportamento de código). A convergência de votos é significativa.
- Agentes podem acessar diferentes fontes ou ferramentas (heterogeneidade disponível).
- As rodadas são limitadas (2-3 normalmente) e há um juiz ou verificador separado.
- O orçamento permite de 3 a 5 agentes. Acima de 5-7 na topologia em grafo, o custo de coordenação domina.
Quando o voto com debate prejudica
- A questão envolve opiniões ou julgamentos subjetivos. Os agentes convergem para a resposta que parecer mais confiante, não para a mais correta.
- Todos os agentes compartilham o mesmo modelo base. A monocultura torna o consenso sem sentido.
- As rodadas não têm limite. A conformidade sempre vence nesses casos.
- A tarefa é simples. Um único agente com autoconsistência a N=5 é mais barato e igualmente preciso.
Construa
code/main.py implementa:
run_star(agents, hub, question)— o hub consulta cada trabalhador e agrega as respostas.run_chain(agents, question)— refinamento sequencial.run_tree(root, children, question)— hierárquico com agregação de profundidade 2.run_graph(agents, question, rounds)— debate de todos para todos com rodadas limitadas.- Um ajuste de heterogeneidade programado: cada agente tem um
error_bias(viés de erro) que indica sua tendência a falhas sistemáticas. - Uma estrutura de medição que executa cada topologia a N=3, 5, 7 e relata (precisão, total_tokens, latência_simulada).
Execute:
python3 code/main.py
Saída esperada: uma tabela contendo topologia × N → (precisão, tokens, latência). O grafo vence a N=3-5 em tarefas de estilo pesquisa; a estrela vence em tarefas factuais rápidas; o grafo a N=7 exibe o custo de coordenação (a latência cresce mais rápido do que a precisão).
Use
O outputs/skill-topology-picker.md é uma habilidade que lê a descrição de uma tarefa e recomenda uma topologia (estrela, cadeia, árvore ou grafo), um número N de agentes, um perfil de heterogeneidade (modelos base a utilizar) e um limite de rodadas.
Coloque em Produção
Para qualquer conjunto de agentes:
- Comece com autoconsistência a N=5 usando um modelo base forte. Essa é sua linha de base econômica.
- Mude para votação heterogênea a N=3 se a precisão for crítica. Meça a diferença.
- Apenas mude para a topologia de debate se a tarefa tiver estrutura adequada (pesquisa, múltiplas etapas) e for viável limitar as rodadas.
- Sempre registre o cluster minoritário. Quando uma minoria está consistentemente correta, você tem um sinal claro de diversidade.
- Monitore tempo de resposta e consumo de tokens juntamente com a precisão. "Maior precisão a um custo 10 vezes maior" é uma decisão de negócios.
Exercícios
- Execute
code/main.py. Plote a curva do custo de coordenação para a topologia em grafo: precisão vs N, tokens vs N. Em qual valor de N a curva muda de inclinação? - Implemente a estratégia A-HMAD: três agentes com vieses de erro intencionalmente diferentes. Como a linha de base de vieses idênticos se compara à estratégia A-HMAD no ataque de monocultura da Lição 14?
- Adicione um papel de "juiz" à topologia em grafo que não vota, apenas pontua o consenso final. Isso altera o comportamento emergente de conformidade?
- Leia o artigo do AgentVerse (ICLR 2024). Identifique qual comportamento emergente sua implementação exibe de forma mais marcante. É possível provocar o comportamento oposto alterando o prompt?
- Leia a Seção 4 (experimentos de topologia) do MultiAgentBench (arXiv:2503.01935). Reproduza o resultado "grafo vence em pesquisa" em uma das tarefas do artigo usando sua estrutura de medição.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Self-consistency | "Amostre N vezes, vote" | Wang 2022. Modelo único, N amostras com temperatura>0, voto por maioria nos caminhos de raciocínio. |
| Heterogeneity | "Diferentes modelos" | Conjunto de diferentes modelos base ou famílias de prompts. Evita a monocultura. |
| MAD | "Debate multiagente" | Termo geral para agentes que trocam críticas ao longo de rodadas. Veja Du 2023. |
| A-HMAD | "MAD heterogêneo adversarial" | Variante de MAD que enfatiza modelos diferentes + estrutura adversarial. |
| Topology | "Quem fala com quem" | Estrela, cadeia, árvore, grafo. Define o fluxo de informações. |
| Coordination tax | "Retornos decrescentes" | Acima de ~4 agentes em grafo, o custo cresce mais rápido do que a qualidade. |
| Volunteer behavior | "Ajuda espontânea" | Padrão emergente no AgentVerse: um agente se oferece para dar o próximo passo. |
| Conformity behavior | "Acordo sob pressão" | Padrão emergente no AgentVerse: um agente alinha-se com o crítico. |
| Jury | "Pequeno comitê especializado" | Conjunto estilo Sibyl com papéis (questionador, contexto, avaliador). |
Leituras Adicionais
- Wang et al. — Self-Consistency Improves Chain of Thought Reasoning — linha de base de modelo único
- Du et al. — Improving Factuality and Reasoning via Multiagent Debate — tanto agentes quanto rodadas influenciam de forma independente
- MultiAgentBench / MARBLE — benchmark de topologia mostrando que grafo é melhor para pesquisa e cadeia para pipelines
- Should we be going MAD? — pesquisa sobre estratégias de MAD; constata que MAD muitas vezes perde para a autoconsistência com o mesmo orçamento
- AgentVerse (ICLR 2024) — padrões emergentes de voluntarismo e conformidade
- MARBLE repo — implementação de referência do benchmark