Phase 14 - Lesson 25

Debate e Colaboração Multiagente

Du et al. (ICML 2024, "Society of Minds") executam N instâncias de modelo que propõem respostas de forma independente e, em seguida, criticam-se iterativamente ao longo de R rodadas para convergir. Melhora a factualidade, o seguimento de regras e o raciocínio. A topologia esparsa supera a malha completa (full mesh) no custo de tokens.

Tipo: Learn + Build Linguagens: Python (stdlib) Pré-requisitos: Fase 14 · 12 (Padrões de Fluxo de Trabalho), Fase 14 · 05 (Auto-Refinamento e CRITIC) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Explicar o protocolo de debate: N proponentes, R rodadas, convergência em uma resposta compartilhada.
  • Descrever por que o debate melhora a factualidade, o seguimento de regras e o raciocínio.
  • Explicar a topologia esparsa: nem todo debatedor precisa ver todos os outros.
  • Implementar um debate usando a stdlib sobre um LLM roteirizado com variantes de malha completa e esparsa; medir o custo de tokens em relação à acurácia.

O Problema

O Auto-Refinamento (Lição 05) consiste em um único modelo criticando a si mesmo — o que gera o risco de pensamento de grupo (groupthink). O CRITIC (Lição 05) fundamenta a crítica em ferramentas externas — nem sempre disponíveis. O debate introduz um terceiro modo: múltiplas instâncias, crítica cruzada e convergência por discordância.

O Conceito

Society of Minds (Du et al., ICML 2024)

  • N instâncias de modelo propõem respostas de forma independente para a mesma pergunta.
  • Ao longo de R rodadas, cada modelo lê as propostas dos outros e as critica.
  • Os modelos atualizam suas respostas com base nas críticas.
  • Após R rodadas, retorna-se a resposta convergente.

Os experimentos originais usaram N=3, R=2 devido ao custo. A acurácia melhora com mais agentes e mais rodadas em problemas difíceis (MMLU, GSM8K, Validade de Movimento de Xadrez, geração de biografias).

As combinações multimodelo superam os debates de um único modelo: ChatGPT + Bard juntos > qualquer um deles sozinho.

Topologia esparsa

"Improving Multi-Agent Debate with Sparse Communication Topology" (arXiv:2406.11776, 2024-2025) mostrou que o debate em malha completa nem sempre é o ideal. Topologias esparsas (estrela, anel, hub-and-spoke) podem igualar a acurácia com um custo menor de tokens. Cada debatedor vê apenas um subconjunto de pares.

Implicações:

  • Malha completa N=5, R=3 = 5 × 3 = 15 propostas, cada um lendo 4 pares = 60 operações de crítica.
  • Estrela N=5, R=3 (um hub + 4 spokes) = 15 propostas, spokes leem apenas o hub = 12 operações de crítica.

Quando o debate ajuda

  • Factualidade. N propostas independentes, a verificação cruzada reduz alucinações.
  • Seguimento de regras. Validade de movimentos no xadrez — se um modelo esquece uma regra, os outros a identificam.
  • Raciocínio aberto. Múltiplas abordagens convergem para a resposta correta.

Quando o debate prejudica

  • UX sensível à latência. N × R rodadas em série geram uma latência que você pode não poder tolerar.
  • Escala sensível ao custo. N × R tokens por pergunta.
  • Buscas factuais simples. Uma única busca é mais barata do que cinco debates.

Instanciações práticas de 2026

  • Orquestrador-trabalhadores da Anthropic (Lição 12) — uma variante de debate com uma etapa de síntese.
  • Supervisor do LangGraph (Lição 13) — roteador central + agentes especialistas podem implementar debate como um nó.
  • SDK de Agentes da OpenAI (Lição 16) — agentes passam a vez de um para o outro para crítica iterativa.
  • Avaliações multiagente — pareamento de debate + avaliador-otimizador para sinal de avaliação.

Onde esse padrão falha

  • Colapso de convergência. Todos os agentes convergem na primeira resposta incorreta. Mitigue isso com rodadas de discordância obrigatórias.
  • Falha no hub. Em uma topologia em estrela, um hub ruim corrompe a todos. Rotacione ou use múltiplos hubs.
  • Homogeneização de prompts. Todos os agentes usam o mesmo prompt; eles produzem as mesmas respostas. Use prompts e/ou modelos diversos.

Build It

O arquivo code/main.py implementa o debate com a biblioteca padrão (stdlib):

  • Classe Debater (LLM roteirizado com desvio de opinião por debatedor).
  • Executores de FullMeshDebate e SparseDebate.
  • Três perguntas: uma factual, uma baseada em regras e outra de raciocínio.
  • Métricas: resposta convergente, rodadas até a convergência, total de operações de crítica.

Execute:

python3 code/main.py

Saída: acurácia e custo por protocolo; a topologia esparsa iguala-se à malha completa em 2 de 3 perguntas com um custo menor.

Use It

  • Orquestrador-trabalhadores da Anthropic para debates simples de 2 a 3 trabalhadores.
  • LangGraph para debate multirrodada com estado e salvamento de pontos de controle (checkpointing).
  • Customizado para pesquisa ou garantias especializadas de correção.

Ship It

O arquivo outputs/skill-debate.md estrutura um debate multiagente com topologia, N, R configuráveis e uma regra de convergência.

Exercícios

  1. Implemente uma regra de "discordância forçada": na rodada 1, cada debatedor deve produzir uma proposta distinta. Meça o efeito na velocidade de convergência.
  2. Adicione uma agregação ponderada pela confiança: os debatedores retornam (resposta, confiança); o agregador pondera pela confiança. Isso ajuda?
  3. Substitua um "agente" por um LLM roteirizado diferente com opiniões diferentes. A heterogeneidade melhora a acurácia?
  4. Meça o custo de tokens da malha completa versus a esparsa em suas 3 perguntas. Plote o custo em relação à acurácia.
  5. Leia o artigo "Society of Minds". Adapte seu protótipo para N=5, R=3. O que quebra? O que melhora?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
Debate "Crítica multiagente" N proponentes, R rodadas de crítica cruzada, convergência
Malha completa (Full mesh) "Todo mundo lê todo mundo" Cada debatedor lê cada um de seus pares a cada rodada
Topologia esparsa "Visualização limitada de pares" Os debatedores leem apenas um subconjunto de pares
Hub-and-spoke "Topologia em estrela" Um debatedor central, N-1 spokes leem apenas o hub
Convergência "Acordo" Os debatedores convergem em uma resposta compartilhada
Society of Minds "Artigo de debate de Du et al." Método de debate multiagente do ICML 2024

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).