Phase 14 - Lesson 25

Debate y Colaboración Multi-Agente

Du et al. (ICML 2024, "Society of Minds") ejecutan N instancias de modelo que proponen respuestas de manera independiente y luego se critican mutuamente de forma iterativa a lo largo de R rondas para converger. Mejora la factualidad, el seguimiento de reglas y el razonamiento. La topología dispersa supera a la malla completa (full mesh) en costo de tokens.

Tipo: Learn + Build Lenguajes: Python (stdlib) Prerrequisitos: Fase 14 · 12 (Patrones de Flujo de Trabajo), Fase 14 · 05 (Auto-Refinamiento y CRITIC) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Explicar el protocolo de debate: N proponentes, R rondas, convergencia en una respuesta compartida.
Describir por qué el debate mejora la factualidad, el seguimiento de reglas y el razonamiento.
Explicar la topología dispersa: no todos los debatientes necesitan ver a todos los demás.
Implementar un debate usando la stdlib sobre un LLM programado con variantes de malla completa y dispersa; medir el costo de tokens frente a la precisión.

El Problema

El Auto-Refinamiento (Lección 05) consiste en un solo modelo criticándose a sí mismo, lo que genera riesgo de pensamiento de grupo (groupthink). CRITIC (Lección 05) fundamenta la crítica en herramientas externas, las cuales no siempre están disponibles. El debate introduce un tercer modo: múltiples instancias, crítica cruzada y convergencia mediante el desacuerdo.

El Concepto

Society of Minds (Du et al., ICML 2024)

N instancias de modelo proponen respuestas de manera independiente a la misma pregunta.
A lo largo de R rondas, cada modelo lee las propuestas de los demás y las critica.
Los modelos actualizan sus respuestas basándose en las críticas.
Después de R rondas, se devuelve la respuesta convergente.

Los experimentos originales utilizaron N=3, R=2 debido al costo. La precisión mejora con más agentes y más rondas en problemas difíciles (MMLU, GSM8K, Validez de Movimientos de Ajedrez, generación de biografías).

Las combinaciones multi-modelo superan a los debates de un solo modelo: ChatGPT + Bard juntos > cualquiera de ellos por separado.

Topología dispersa

"Improving Multi-Agent Debate with Sparse Communication Topology" (arXiv:2406.11776, 2024-2025) demostró que el debate en malla completa no siempre es óptimo. Las topologías dispersas (estrella, anillo, hub-and-spoke) pueden igualar la precisión con un menor costo de tokens. Cada debatiente ve solo un subconjunto de sus pares.

Implicaciones:

Malla completa N=5, R=3 = 5 × 3 = 15 propuestas, cada uno leyendo 4 pares = 60 operaciones de crítica.
Estrella N=5, R=3 (un hub + 4 spokes) = 15 propuestas, los spokes leen solo el hub = 12 operaciones de crítica.

Cuándo ayuda el debate

Factualidad. N propuestas independientes, la verificación cruzada reduce las alucinaciones.
Seguimiento de reglas. Validez de movimientos de ajedrez: si un modelo pasa por alto una regla, los otros la detectan.
Razonamiento abierto. Múltiples enfoques convergen en la respuesta correcta.

Cuándo perjudica el debate

UX sensible a la latencia. N × R rondas en serie representan una latencia que quizás no pueda permitirse.
Escala sensible al costo. N × R tokens por pregunta.
Búsquedas de hechos simples. Una sola búsqueda es más barata que cinco debates.

Instanciaciones prácticas de 2026

Orquestador-trabajadores de Anthropic (Lección 12): una variante de debate con un paso de síntesis.
Supervisor de LangGraph (Lección 13): el enrutador central + agentes especialistas pueden implementar el debate como un nodo.
SDK de Agentes de OpenAI (Lección 16): los agentes se pasan el turno de uno a otro para una crítica iterativa.
Evaluaciones multi-agente: emparejamiento de debate + evaluador-optimizador para obtener una señal de evaluación.

Dónde falla este patrón

Colapso de convergencia. Todos los agentes convergen en la primera respuesta incorrecta. Mitíguelo con rondas de desacuerdo obligatorio.
Fallo del hub. En una topología de estrella, un hub defectuoso corrompe a todos. Rote o use múltiples hubs.
Homogeneización de prompts. Todos los agentes usan el mismo prompt y producen las mismas respuestas. Use prompts y/o modelos diversos.

Build It

El archivo code/main.py implementa el debate con la biblioteca estándar (stdlib):

Clase Debater (LLM programado con desviación de opinión por debatiente).
Ejecutores de FullMeshDebate y SparseDebate.
Tres preguntas: una factual, una basada en reglas y otra de razonamiento.
Métricas: respuesta convergente, rondas hasta la convergencia, total de operaciones de crítica.

Ejecútelo:

python3 code/main.py

Salida: precisión y costo por protocolo; la topología dispersa iguala a la malla completa en 2 de 3 preguntas con un costo menor.

Use It

Orquestador-trabajadores de Anthropic para debates sencillos de 2 a 3 trabajadores.
LangGraph para debates multironda con estado y guardado de puntos de control (checkpointing).
Personalizado para investigación o garantías de corrección especializadas.

Ship It

El archivo outputs/skill-debate.md estructura un debate multi-agente con topologia, N, R configurables y una regla de convergencia.

Ejercicios

Implemente una regla de "desacuerdo forzado": en la ronda 1, cada debatiente debe producir una propuesta distinta. Mida el efecto en la velocidad de convergencia.
Agregue una agregación ponderada por confianza: los debatientes devuelven (respuesta, confianza); el agregador pondera por confianza. ¿Ayuda esto?
Cambie un "agente" por un LLM programado diferente con opiniones diferentes. ¿La heterogeneidad mejora la precisión?
Mida el costo de tokens para malla completa frente a la dispersa en sus 3 preguntas. Grafique el costo frente a la precisión.
Lea el artículo de "Society of Minds". Adapte su prototipo a N=5, R=3. ¿Qué se rompe? ¿Qué mejora?

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Debate	"Crítica multi-agente"	N proponentes, R rondas de crítica cruzada, convergencia
Malla completa	"Todos leen a todos"	Cada debatiente lee a cada par en cada ronda
Topología dispersa	"Visualización limitada de pares"	Los debatientes leen solo un subconjunto de sus pares
Hub-and-spoke	"Topología en estrella"	Un debatiente central, N-1 spokes leen solo el hub
Convergencia	"Acuerdo"	Los debatientes convergen en una respuesta compartida
Society of Minds	"Artículo de debate de Du et al."	Método de debate multi-agente de ICML 2024

Lectura Adicional

Du et al., Society of Minds (arXiv:2305.14325) — debate multi-agente canónico
Sparse Communication Topology (arXiv:2406.11776) — resultados de topología dispersa
Anthropic, Building Effective Agents — orquestador-trabajadores como una variante de debate
Madaan et al., Self-Refine (arXiv:2303.17651) — contraparte de autocrítica de modelo único