Phase 14 - Lesson 25
Debate y Colaboración Multi-Agente
Du et al. (ICML 2024, "Society of Minds") ejecutan N instancias de modelo que proponen respuestas de manera independiente y luego se critican mutuamente de forma iterativa a lo largo de R rondas para converger. Mejora la factualidad, el seguimiento de reglas y el razonamiento. La topología dispersa supera a la malla completa (full mesh) en costo de tokens.
Tipo: Learn + Build Lenguajes: Python (stdlib) Prerrequisitos: Fase 14 · 12 (Patrones de Flujo de Trabajo), Fase 14 · 05 (Auto-Refinamiento y CRITIC) Tiempo: ~60 minutos
Objetivos de Aprendizaje
- Explicar el protocolo de debate: N proponentes, R rondas, convergencia en una respuesta compartida.
- Describir por qué el debate mejora la factualidad, el seguimiento de reglas y el razonamiento.
- Explicar la topología dispersa: no todos los debatientes necesitan ver a todos los demás.
- Implementar un debate usando la stdlib sobre un LLM programado con variantes de malla completa y dispersa; medir el costo de tokens frente a la precisión.
El Problema
El Auto-Refinamiento (Lección 05) consiste en un solo modelo criticándose a sí mismo, lo que genera riesgo de pensamiento de grupo (groupthink). CRITIC (Lección 05) fundamenta la crítica en herramientas externas, las cuales no siempre están disponibles. El debate introduce un tercer modo: múltiples instancias, crítica cruzada y convergencia mediante el desacuerdo.
El Concepto
Society of Minds (Du et al., ICML 2024)
- N instancias de modelo proponen respuestas de manera independiente a la misma pregunta.
- A lo largo de R rondas, cada modelo lee las propuestas de los demás y las critica.
- Los modelos actualizan sus respuestas basándose en las críticas.
- Después de R rondas, se devuelve la respuesta convergente.
Los experimentos originales utilizaron N=3, R=2 debido al costo. La precisión mejora con más agentes y más rondas en problemas difíciles (MMLU, GSM8K, Validez de Movimientos de Ajedrez, generación de biografías).
Las combinaciones multi-modelo superan a los debates de un solo modelo: ChatGPT + Bard juntos > cualquiera de ellos por separado.
Topología dispersa
"Improving Multi-Agent Debate with Sparse Communication Topology" (arXiv:2406.11776, 2024-2025) demostró que el debate en malla completa no siempre es óptimo. Las topologías dispersas (estrella, anillo, hub-and-spoke) pueden igualar la precisión con un menor costo de tokens. Cada debatiente ve solo un subconjunto de sus pares.
Implicaciones:
- Malla completa N=5, R=3 = 5 × 3 = 15 propuestas, cada uno leyendo 4 pares = 60 operaciones de crítica.
- Estrella N=5, R=3 (un hub + 4 spokes) = 15 propuestas, los spokes leen solo el hub = 12 operaciones de crítica.
Cuándo ayuda el debate
- Factualidad. N propuestas independientes, la verificación cruzada reduce las alucinaciones.
- Seguimiento de reglas. Validez de movimientos de ajedrez: si un modelo pasa por alto una regla, los otros la detectan.
- Razonamiento abierto. Múltiples enfoques convergen en la respuesta correcta.
Cuándo perjudica el debate
- UX sensible a la latencia. N × R rondas en serie representan una latencia que quizás no pueda permitirse.
- Escala sensible al costo. N × R tokens por pregunta.
- Búsquedas de hechos simples. Una sola búsqueda es más barata que cinco debates.
Instanciaciones prácticas de 2026
- Orquestador-trabajadores de Anthropic (Lección 12): una variante de debate con un paso de síntesis.
- Supervisor de LangGraph (Lección 13): el enrutador central + agentes especialistas pueden implementar el debate como un nodo.
- SDK de Agentes de OpenAI (Lección 16): los agentes se pasan el turno de uno a otro para una crítica iterativa.
- Evaluaciones multi-agente: emparejamiento de debate + evaluador-optimizador para obtener una señal de evaluación.
Dónde falla este patrón
- Colapso de convergencia. Todos los agentes convergen en la primera respuesta incorrecta. Mitíguelo con rondas de desacuerdo obligatorio.
- Fallo del hub. En una topología de estrella, un hub defectuoso corrompe a todos. Rote o use múltiples hubs.
- Homogeneización de prompts. Todos los agentes usan el mismo prompt y producen las mismas respuestas. Use prompts y/o modelos diversos.
Build It
El archivo code/main.py implementa el debate con la biblioteca estándar (stdlib):
- Clase
Debater(LLM programado con desviación de opinión por debatiente). - Ejecutores de
FullMeshDebateySparseDebate. - Tres preguntas: una factual, una basada en reglas y otra de razonamiento.
- Métricas: respuesta convergente, rondas hasta la convergencia, total de operaciones de crítica.
Ejecútelo:
python3 code/main.py
Salida: precisión y costo por protocolo; la topología dispersa iguala a la malla completa en 2 de 3 preguntas con un costo menor.
Use It
- Orquestador-trabajadores de Anthropic para debates sencillos de 2 a 3 trabajadores.
- LangGraph para debates multironda con estado y guardado de puntos de control (checkpointing).
- Personalizado para investigación o garantías de corrección especializadas.
Ship It
El archivo outputs/skill-debate.md estructura un debate multi-agente con topologia, N, R configurables y una regla de convergencia.
Ejercicios
- Implemente una regla de "desacuerdo forzado": en la ronda 1, cada debatiente debe producir una propuesta distinta. Mida el efecto en la velocidad de convergencia.
- Agregue una agregación ponderada por confianza: los debatientes devuelven (respuesta, confianza); el agregador pondera por confianza. ¿Ayuda esto?
- Cambie un "agente" por un LLM programado diferente con opiniones diferentes. ¿La heterogeneidad mejora la precisión?
- Mida el costo de tokens para malla completa frente a la dispersa en sus 3 preguntas. Grafique el costo frente a la precisión.
- Lea el artículo de "Society of Minds". Adapte su prototipo a N=5, R=3. ¿Qué se rompe? ¿Qué mejora?
Términos Clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Debate | "Crítica multi-agente" | N proponentes, R rondas de crítica cruzada, convergencia |
| Malla completa | "Todos leen a todos" | Cada debatiente lee a cada par en cada ronda |
| Topología dispersa | "Visualización limitada de pares" | Los debatientes leen solo un subconjunto de sus pares |
| Hub-and-spoke | "Topología en estrella" | Un debatiente central, N-1 spokes leen solo el hub |
| Convergencia | "Acuerdo" | Los debatientes convergen en una respuesta compartida |
| Society of Minds | "Artículo de debate de Du et al." | Método de debate multi-agente de ICML 2024 |
Lectura Adicional
- Du et al., Society of Minds (arXiv:2305.14325) — debate multi-agente canónico
- Sparse Communication Topology (arXiv:2406.11776) — resultados de topología dispersa
- Anthropic, Building Effective Agents — orquestador-trabajadores como una variante de debate
- Madaan et al., Self-Refine (arXiv:2303.17651) — contraparte de autocrítica de modelo único