Phase 16 - Lesson 15

Votación, Autoconsistencia y Topologías de Debate

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

La agregación más económica: tomar muestras de N agentes independientes y votar por mayoría. La autoconsistencia (self-consistency) de Wang et al. 2022 hizo esto con un único modelo muestreado N veces. Los sistemas multiagente extienden esto con agentes heterogéneos para escapar de la monocultura: diferentes modelos, diferentes prompts, diferentes temperaturas y diferentes contextos. Más allá del voto por mayoría, la topología del debate es importante: el MultiAgentBench (arXiv:2503.01935, ACL 2025) evaluó la coordinación en estrella, cadena, árbol y grafo, constatando que el grafo es mejor para las tareas de investigación, pero presenta una "tasa de coordinación" (coordination tax) después de unos 4 agentes. AgentVerse (ICLR 2024) documenta dos patrones emergentes —comportamientos voluntarios y comportamientos de conformidad— y la conformidad es tanto una característica (lograr consenso) como un riesgo (pensamiento de grupo o groupthink, Lección 24). Esta lección mapea el espacio de topologías, construye cada variante y mide la tasa de coordinación.

Tipo: Aprender + Construir Lenguajes: Python (stdlib) Prerrequisitos: Phase 16 · 04 (Primitive Model), Phase 16 · 07 (Society of Mind and Debate), Phase 16 · 14 (Consensus and BFT) Tiempo: ~75 minutos

Problema

El debate puede mejorar la precisión (Du et al., arXiv:2305.14325). También puede degradarla. Que el debate ayude depende de cuatro elecciones estructurales:

Quién habla con quién (topología).
Cuántas rondas (Du 2023: tanto las rondas como los agentes importan de forma independiente).
Si los agentes son heterogêneos (los diferentes modelos base rompen la monocultura).
Si hay una voz adversarial presente (steel-manning frente a straw-manning).

Los equipos que simplemente aplican "ejecutar 5 agentes y votar" a una tarea a menudo empeoran los resultados en comparación con un solo agente. Las fallas no son aleatorias; están directamente relacionadas con la topología y la heterogeneidad. Esta lección presenta el mapa de estas topologías.

Concepto

Autoconsistencia, la línea de base de modelo único

Wang et al. 2022 ("Self-Consistency Improves Chain of Thought Reasoning") tomaron muestras del mismo modelo N veces con una temperatura > 0 y votaron por mayoría en los caminos de razonamiento. El resultado en GSM8K: ganancias significativas con N=40 muestras en comparación con la decodificación codiciosa (greedy decode) de una sola ejecución. La autoconsistencia es la precursora de la votación multiagente en modelos individuales.

Limitación: la autoconsistencia utiliza un solo modelo base. Los errores están correlacionados por definición. Si el modelo tiene un sesgo sistemático, todas las N muestras lo compartirán.

Voto multiagente, la extensión heterogénea

Reemplace N muestras por N agentes diferentes. Diferentes modelos base (Claude, GPT, Llama), diferentes prompts, diferentes accesos a herramientas. El beneficio: errores no correlacionados. El costo: los diferentes modelos cuestan valores diferentes; coordinarlos añade sobrecarga de procesamiento.

El término académico de 2026 para el debate heterogéneo es A-HMAD — Adversarial Heterogeneous Multi-Agent Debate. Aunque no se adopta universalmente, los artículos usan este término para referirse a "debates entre modelos diferentes, lo que reduce errores correlacionados generados por el colapso de la monocultura".

Las cuatro topologías

star                chain               tree                graph
 
    ┌─A─┐           A─B─C─D         ┌──A──┐              A───B
    │   │                           │     │              │ × │
    B   C                           B     C              D───C
    │   │                          / \   / \
    D   E                         D   E F   G           (fully connected)

Estrella (Star): un hub central; todos los demás se comunican únicamente con él. Equivalente a supervisor-trabajador sin canal de comunicación lateral. Cadena (Chain): lineal; cada agente ve la salida del agente anterior. Similar a una línea de montaje (pipeline). Árbol (Tree): jerárquica; utilizada por sistemas jerárquicos de agentes (Lección 06). Grafo (Graph): cualquiera con cualquiera. Incluye el grupo totalmente conectado (clique) y grafos dirigidos acíclicos (DAGs) arbitrarios.

La tasa de coordinación (MultiAgentBench)

El MultiAgentBench (MARBLE, ACL 2025, arXiv:2503.01935) evaluó las topologias estrella, cadena, árbol y grafo en un conjunto de tareas que incluyó investigación, codificación y planificación. Principales resultados medidos:

La topología en grafo gana en tareas de investigación. La información fluye de cualquiera a cualquiera; los agentes pueden criticarse entre sí.
La topología en estrella gana en tareas de datos objetivos de respuesta rápida. El hub filtra y consolida.
La topología en cadena gana en pipelines de pasos secuenciales (refinamiento en etapas).
La tasa de coordinación aparece después de unos 4 agentes en la topología en grafo. El tiempo de reloj (wall-clock) y el costo de tokens crecen más rápido que la ganancia de calidad.

Este límite de 4 agentes es empírico, no conceptual. Refleja la capacidad de contexto de los LLM en 2026: el contexto de cada agente se llena con las respuestas de sus compañeros, y el valor marginal de agregar el agente N+1 cae en picada una vez que todos pueden visualizar la contribución de todos.

Estrategias de Debate Multiagente ("Should we be going MAD?")

arXiv:2311.17371 es la encuesta de 2023 sobre estrategias MAD (Multi-Agent Debate). El principal hallazgo replicado por otros estudios: las variantes de MAD que son estructuralmente similares a la autoconsistencia (muestreo independiente + agregación) a menudo tienen un rendimiento inferior al de la autoconsistencia cuando se utiliza el mismo presupuesto. El debate ayuda principalmente cuando los agentes son genuinamente heterogéneos y la dinámica tiene estructura adversarial (un agente argumentando contra el otro).

Patrones emergentes de AgentVerse

AgentVerse (ICLR 2024, https://proceedings.iclr.cc/paper_files/paper/2024/file/578e65cdee35d00c708d4c64bce32971-Paper-Conference.pdf) documenta dos comportamientos que surgen del debate multiagente, incluso sin un diseño explícito:

Voluntariado. Un agente se ofrece a ayudar ("puedo encargarme del siguiente paso") sin que se le pida. Útil: asigna el trabajo al agente más capaz para esa subtarea.
Conformidad. Un agente ajusta su postura para coincidir con un crítico, incluso cuando el crítico está equivocado. Esta es la versión del debate para la adulación (Lección 14).

La conformidad es la razón por la cual debatir hasta que haya un acuerdo premia a los agentes agresivos. Limitar las rondas y utilizar un juez independiente ayuda a mitigar esto.

Heterogeneidad: el verdadero ajuste para la precisión

Un patrón práctico en la literatura de 2024-2026: cambiar uno de sus N agentes por un modelo base diferente da un aumento de precisión mayor que aumentar el valor de N en 1. La intuición detrás de esto es la monocultura: cada nueva fuente de error independiente vale más que una muestra correlacionada adicional.

In el límite, la heterogeneidad supera a la cantidad numérica. Tres modelos diferentes superan a cinco copias del mismo modelo en la mayoría de las tareas con respuestas objetivas claras.

Métodos de jurado

El framework Sibyl (citado en la literatura de Minsky-LLM) formaliza un "jurado": un pequeño conjunto de agentes especializados que refinan respuestas votando en cada etapa. A diferencia del voto por mayoría simple, un jurado tiene roles: un agente interroga, otro proporciona contexto y otro califica la plausibilidad. Los métodos de jurado son un punto medio entre la votación simple (barata, propensa a la monocultura) y el debate completo (caro, propenso a la conformidad).

Cuándo el voto con debate domina

La pregunta tiene una respuesta objetiva (hechos, matemáticas, comportamiento de código). La convergencia de votos es significativa.
Los agentes pueden acceder a diferentes fuentes o herramientas (la heterogeneidad está disponible).
Las rondas están limitadas (2-3 típicamente) y hay un juez o verificador independiente.
El presupuesto permite de 3 a 5 agentes. Más allá de 5-7 en la topología en grafo, el costo de coordinación domina.

Cuándo el voto con debate perjudica

La pregunta involucra opiniones o juicios subjetivos. Los agentes convergen hacia la respuesta que parezca más confiada, no la más correcta.
Todos los agentes comparten el mismo modelo base. La monocultura hace que el consenso no tenga sentido.
Las rondas no tienen límite. La conformidad siempre gana en estos casos.
La tarea es sencilla. Un solo agente con autoconsistencia a N=5 es más barato e igualmente preciso.

Constrúyelo

code/main.py implementa:

run_star(agents, hub, question) — el hub consulta a cada trabajador y agrega las respuestas.
run_chain(agents, question) — refinamiento secuencial.
run_tree(root, children, question) — jerárquico con agregación de profundidad 2.
run_graph(agents, question, rounds) — debate de todos con todos con rondas acotadas.
Un ajuste de heterogeneidad programado: cada agente tiene un error_bias (sesgo de error) que indica su tendencia a fallas sistemáticas.
Una estructura de medición que ejecuta cada topología a N=3, 5, 7 y relata (precisión, total_tokens, latencia_simulada).

Ejecutar:

python3 code/main.py

Resultado esperado: una tabla que contiene topología × N → (precisión, tokens, latencia). El grafo gana a N=3-5 en tareas de estilo investigación; la estrella gana en tareas de datos objetivos rápidos; el grafo a N=7 exhibe la tasa de coordinación (la latencia crece más rápido que la precisión).

Úsalo

outputs/skill-topology-picker.md es una habilidad que lee la descripción de una tarea y recomienda una topología (estrella, cadena, árbol o grafo), un número N de agentes, un perfil de heterogeneidad (modelos base a utilizar) y un límite de rondas.

Ponlo en Producción

Para cualquier conjunto de agentes:

Comience con autoconsistencia a N=5 usando un modelo base fuerte. Esa es su línea de base económica.
Cambie a votación heterogénea a N=3 si la precisión es crítica. Mida la diferencia.
Solo cambie a la topología de debate si la tarea tiene una estructura adecuada (investigación, varios pasos) y es factible limitar las rondas.
Siempre registre el grupo minoritario. Cuando una minoría está consistentemente en lo correcto, usted tiene una señal clara de diversidad.
Monitoree el tiempo de respuesta y el consumo de tokens junto con la precisión. "Mayor precisión a un costo 10 veces mayor" es una decisión de negocios.

Ejercicios

Ejecute code/main.py. Grafique la curva de la tasa de coordinación para la topología en grafo: precisión frente a N, tokens frente a N. ¿En qué valor de N cambia de dirección la curva?
Implemente la estrategia A-HMAD: tres agentes con sesgos de error intencionalmente diferentes. ¿Cómo se compara la línea de base de sesgos idénticos con la estrategia A-HMAD en el ataque de monocultura de la Lección 14?
Agregue un rol de "juez" a la topología en grafo que no vote, sino que solo califique el consenso final. ¿Cambia esto el comportamiento emergente de conformidad?
Lea el artículo de AgentVerse (ICLR 2024). Identifique cuál comportamiento emergente muestra su implementación de manera más marcada. ¿Puede provocar el comportamiento opuesto cambiando el prompt?
Lea la Sección 4 (experimentos de topología) de MultiAgentBench (arXiv:2503.01935). Reproduzca el resultado "el grafo gana en investigación" en una de las tareas del artículo usando su estructura de medición.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Self-consistency	"Muestra N veces y vota"	Wang 2022. Modelo único, N muestras con temperatura > 0, voto por mayoría en los caminos de razonamiento.
Heterogeneity	"Diferentes modelos"	Conjunto de diferentes modelos base o familias de prompts. Evita la monocultura.
MAD	"Debate multiagente"	Término general para agentes que intercambian críticas a lo largo de rondas. Ver Du 2023.
A-HMAD	"MAD heterogéneo adversarial"	Variante de MAD que enfatiza modelos diferentes + estructura adversarial.
Topology	"Quién habla con quién"	Estrella, cadena, árbol, grafo. Determina el flujo de información.
Coordination tax	"Retornos decrescentes"	Por encima de ~4 agentes en grafo, el costo crece más rápido que la calidad.
Volunteer behavior	"Ayuda espontánea"	Patrón emergente en AgentVerse: un agente se ofrece a dar el próximo paso.
Conformity behavior	"Acuerdo bajo presión"	Patrón emergente en AgentVerse: un agente se alinea con el crítico.
Jury	"Pequeño panel especializado"	Conjunto de estilo Sibyl con roles (interrogador, contexto, evaluador).

Lecturas Adicionales

Wang et al. — Self-Consistency Improves Chain of Thought Reasoning — línea de base de modelo único
Du et al. — Improving Factuality and Reasoning via Multiagent Debate — tanto los agentes como las rondas importan de forma independiente
MultiAgentBench / MARBLE — benchmark de topología que muestra que grafo es mejor para investigación y cadena para pipelines
Should we be going MAD? — encuesta sobre estrategias de MAD; encuentra que MAD a menudo pierde ante la autoconsistencia con el mismo presupuesto
AgentVerse (ICLR 2024) — patrones emergentes de voluntariado y conformidad
MARBLE repo — implementación de referencia del benchmark