Phase 16 - Lesson 23

Modos de Fallo — MAST, Pensamiento de Grupo, Monocultura, Erros en Cascata

La taxonomía de referencia para 2026 es MAST (Cemri et al., NeurIPS 2025, arXiv:2503.13657), derivada de 1642 trazas de ejecución en 7 MAS de código abierto de última generación que muestran una tasa de fallo del 41–86.7%. Tres categorías raíz: Problemas de Especificación (Specification Problems - 41.77%) — ambigüedad de roles, definiciones de tareas poco claras; Fallos de Coordinación (Coordination Failures - 36.94%) — fallos de comunicación, desincronización de estado; Brechas de Verificación (Verification Gaps - 21.30%) — validación ausente, falta de comprobaciones de calidad. La familia Pensamiento de Grupo (Groupthink) (arXiv:2508.05687) añade: colapso de monocultura (mismo modelo base → fallos correlacionados), sesgo de conformidad (los agentes refuerzan los errores de los demás), teoría de la mente deficiente, dinámica de motivación mixta y fallos de confiabilidad en cascada. Ejemplo en cascada: tormentas de reintentos (retry storms) donde un fallo de pago activa reintentos de pedidos, que activan reintentos de inventario, lo que sobrecarga el servicio de inventario (10 veces la carga en segundos — requiere disyuntores / circuit breakers). Envenenamiento de memoria: la alucinación de un agente entra en la memoria compartida, los agentes downstream la tratan como un hecho; la precisión decae gradualmente, lo que hace doloroso el diagnóstico de la causa raíz. STRATUS (NeurIPS 2025) reporta una mejora de 1.5 veces en el éxito de la mitigación a través de agentes especializados de detección / diagnóstico / validación. Esta lección trata los modos de fallo como objetivos de ingeniería de primer nivel.

Tipo: Aprender Idiomas: Python (stdlib) Prerrequisitos: Fase 16 · 13 (Memoria Compartida), Fase 16 · 14 (Consenso y BFT), Fase 16 · 15 (Topología de Votación y Debate) Tiempo: ~75 minutos

Problema

Los sistemas multiagente fallan del 41 al 86.7% de las veces en tareas reales (Cemri et al. 2005 midieron esto en 7 MAS de código abierto). Eso no es algo depurable "simplemente agregando más agentes". Los fallos tienen causas estructurales. La taxonomía MAST proporciona las categorías. Esta lección mapea cada categoría a un patrón concreto de detección, diagnóstico y mitigación para que las cifras dejen de parecer arbitrarias.

La práctica de producción en 2026 consiste en tratar los modos de fallo como entradas de diseño. Tu arquitectura no es "suficientemente buena" hasta que puedas señalar cada categoría de MAST e indicar la mitigación que has implementado.

Concepto

Categorías MAST

Problemas de Especificación (41.77% de los fallos). La tarea del agente no se definió con suficiente rigor. Ejemplos:

Ambigüedad de roles: dos agentes piensan que son el revisor.
Tarea subespecificada: "resume esto" cuando el usuario quería un enfoque específico.
Criterios de éxito implícitos: el agente no puede determinar si tuvo éxito.

Mitigaciones:

Escribe contratos de rol explícitos. El prompt de cada agente indica lo que hace y lo que no hace.
Pruebas de aceptación por tarea. Antes de que el agente comience, define "completado se ve como X".
Verificación de especificación previa (pre-flight): un agente independiente revisa la definición de la tarea antes del despacho.

Fallos de Coordinación (36.94%). Fallos de comunicación o de estado.

Ejemplos:

Dos agentes actualizan el estado compartido sin sincronización.
Mensaje perdido entre agentes (fallo en la cola, timeout).
Desvío de estado (state drift): el agente A cree que la tarea ha terminado; el agente B sigue ejecutándose.

Mitigaciones:

Estado compartido versionado con concurrencia optimista.
Confirmación explícita (ack) para mensajes críticos (reintentar hasta recibir ack).
Checkpoints periódicos de sincronización de estado; detecta desvíos a tiempo.

Brechas de Verificación (21.30%). Ninguna verificación independiente de las salidas.

Ejemplos:

Un agente reclama éxito; nadie lo verifica.
Cadena de agentes donde cada uno confía en la salida del anterior.
Falta de cobertura de pruebas en el comportamiento emergente compuesto.

Mitigaciones:

Agente verificador independiente (Lección 13). Acceso a fuentes independiente y de solo lectura.
Contrato de entrega explícito (handoff): "la salida de A debe pasar por el verificador C antes de que comience B."
Registro de resultados para análisis posterior (post-hoc).

Familia Pensamento de Grupo (arXiv:2508.05687)

Cinco fallos relacionados cuando los agentes se homogenizan o se imitan entre sí:

Colapso de monocultura. Mismo modelo base o datos de entrenamiento → errores correlacionados. Cuando tres agentes comparten un LLM, comparten sus alucinaciones.

Sesgo de conformidad. Los agentes se adaptan al colega más ruidoso o confiado, incluso cuando está equivocado.

Teoría de la Mente (ToM) deficiente. Los agentes fallan al modelar las creencias de los demás; la coordinación se desmorona (Lección 18).

Dinámica de motivación mixta. Agentes con incentivos parcialmente alineados se desvían hacia un término medio de compromiso que no satisface a nadie.

Fallos de confiabilidad en cascada. El patrón de error de un componente activa patrones de error en componentes dependientes.

Ejemplo en cascada — la tormenta de reintentos (retry storm)

Un patrón clásico de incidente de 2026:

payment service fails 10% of requests
    ↓
order agent retries payment (exponential backoff but naive)
    ↓
each retry is a new order-inventory check
    ↓
inventory service sees 2x normal load
    ↓
inventory service starts timing out
    ↓
every order retries inventory check
    ↓
inventory service sees 10x normal load
    ↓
cluster goes down

La corrección es clásica: disyuntores (circuit breakers). Cuando la tasa de error downstream supera el límite, se interrumpe el circuito devolviendo resultados en caché o por defecto. Además, se aplican presupuestos de reintentos limitados por solicitud.

Los disyuntores son una de las pocas mitigaciones de fallos multiagente importadas directamente de los sistemas distribuidos sin modificación.

Envenenamiento de memoria (revisitado)

De la Lección 13: la alucinación de un agente se convierte en un hecho en la memoria compartida; los agentes downstream razonan basándose en el hecho envenenado. En términos de MAST, esta es una brecha de verificación en la capa de memoria compartida.

El síntoma es la degradación gradual de la precisión. No se produce un fallo catastrófico inmediato; se obtiene un desvío lento difícil de diagnosticar en su causa raíz.

Mitigación: log append-only, procedencia, verificador sin permisos de escritura. Ya se abordó en la Lección 13.

STRATUS — agentes especializados para detección de fallos

STRATUS (NeurIPS 2025) reporta una mejora de 1.5 veces en el éxito de la mitigación al desplegar:

Agente de detección. Vigila patrones de síntomas (alta discrepancia, picos de reintentos, desvío de precisión).
Agente de diagnóstico. Ante los síntomas, infiere la causa raíz probable a partir de la taxonomía MAST.
Agente de validación. Después de aplicar una mitigación, verifica que los síntomas desaparezcan.

Esto es respuesta a incidentes al estilo SRE, aplicada a sistemas de agentes. Los tres roles pueden ser agentes de LLM con prompts especializados.

La auditoría de modos de fallo

Una práctica recomendada de 2026 es realizar una auditoría de modos de fallo anual (o por versión principal):

Muestra de trazas. Recopila unas 1000 trazas de ejecución reales.
Categoriza. Para cada fallo en las trazas, mapea a las categorías de MAST + Groupthink.
Calcula la tasa de fallos por categoría. ¿Qué categorías dominan en tu sistema?
Clasifica las mitigaciones. ¿Qué corrección eliminaría la mayor cantidad de fallos?
Elige 2-3 mitigaciones. Impleméntalas y vuelve a realizar la auditoría el próximo trimestre.

La disciplina es más importante que las elecciones específicas. Sin auditorías, los fallos se confunden con el ruido y nunca se abordan de manera sistemática.

Cuando los sistemas fallan silenciosamente

La categoría de fallo más peligrosa es el fallo de corrección silencioso. Un sistema que falla ruidosamente (crash, excepción, alerta) se puede monitorear. Un sistema que produce salidas plausibles pero erróneas no se puede detectar mediante registros de excepciones. Esta es la razón por la cual las brechas de verificación son la categoría más costosa por fallo, aunque solo representen el 21.30% en cantidad.

Invierte en:

Revisión humana basada en muestras.
Pruebas de regresión con conjuntos de datos de referencia (golden datasets).
Validación cruzada entre agentes para salidas importantes.

Fallo inmediato vs fallo lento

Algunos fallos son inmediatos; otros son lentos. Los fallos inmediatos (timeout, incompatibilidad de esquema, error de autenticación) son baratos de detectar. Los fallos lentos (envenenamiento de memoria, desvío por monocultura, ambigüedad de roles) son caros de detectar y prevenir.

La estrategia de ingeniería para 2026: instrumentar proxies de fallo lento para capturar desvíos antes de que se conviertan en errores visibles. La tasa de acuerdo, la tasa de reintentos, la distribución de la longitud de la salida y la distancia de edición entre versiones consecutivas de los agentes son proxies útiles.

Build It

El archivo code/main.py implementa:

FailureTaxonomy — categoriza incidentes simulados en las categorías MAST + Groupthink.
CircuitBreaker — patrón clásico; abre cuando la tasa de error supera el límite.
RetryStormSimulator — muestra el fallo en cascada; activa y desactiva el disyuntor.
DetectionAgent — agente de detección en estilo STRATUS implementado mediante código.

Ejecuta:

python3 code/main.py

Resultado esperado:

tormenta de reintentos sin disyuntor: los errores de inventario explotan (simulado).
con disyuntor: se limita al umbral máximo; se sirven respuestas en modo degradado.
el agente de detección señala el patrón y nombra la categoría MAST correspondiente.

Use It

El archivo outputs/skill-mast-auditor.md realiza una auditoría de modos de fallo al estilo MAST en un sistema multiagente. Trazas → categorización → clasificación de mitigaciones.

Ship It

Disciplina de modos de fallo en producción:

Auditoría MAST trimestral. No anual. Las categorías cambian a medida que tu sistema crece.
Disyuntores en todas partes. En cada llamada saliente a cualquier servicio dependiente. Umbral de apertura por defecto al 5-10% de tasa de error.
Golden datasets. Conjuntos de datos pequeños, de alta calidad y auditados a mano. Realiza pruebas de regresión con ellos semanalmente.
Trío STRATUS. Agentes de detección + diagnóstico + validación monitoreando la producción. Comienza solo con el agente de detección; agrega el de diagnóstico cuando los síntomas generen demasiado ruido.
Presupuesto de fallos (failure budget). SLO explícito para la tasa de fallos por categoría. Superar el presupuesto detiene los despliegues para investigación.

Ejercicios

Ejecuta code/main.py. Confirma que el disyuntor limite la tormenta de reintentos. Varía el umbral de fallos y observa la relación de compromiso (tradeoff).
Implementa un proxy de fallo lento: tasa de acuerdo entre 3 agentes paralelos. Cuando caiga drásticamente, activa una alerta. Simula un desvío por monocultura correlacionando gradualmente las salidas de los agentes.
Lee Cemri et al. (arXiv:2503.13657). Elige uno de sus 7 sistemas MAS y mapea sus 3 categorías principales de fallo. ¿Cómo se comparan con las predicciones de MAST?
Lee el artículo sobre Groupthink (arXiv:2508.05687). Identifica cuál de los cinco patrones es el más difícil de detectar en producción. Propón una métrica proxy.
Diseña un trío STRATUS de detección-diagnóstico-validación para un sistema multiagente específico que conozcas. ¿Qué síntomas vigila la detección? ¿Qué mitigaciones recomienda el diagnóstico? ¿Cómo confirma la validación que funcionan?

Términos Clave

Término	Lo que dice la gente	Lo que realmente significa
MAST	"La taxonomía de 2026"	Cemri 2025; 3 categorías raíz + 14 subtipos de fallos.
Problema de Especificación	"Ambigüedad de roles"	Tarea o rol subdefinido; los agentes no saben qué hacer.
Fallo de Coordinación	"Desvío de estado"	Fallo de comunicación o sincronización entre agentes.
Brecha de Verificación	"Nadie comprobó"	Salidas aceptadas sin validación independiente.
Familia Pensamiento de Grupo	"Fallos de homogeneidad"	Monocultura, conformidad, ToM deficiente, motivación mixta, cascada.
Colapso de monocultura	"Mismo modelo, mismas alucinaciones"	Erros correlacionados a partir de un modelo base o datos de entrenamiento compartidos.
Tormenta de reintentos	"Amplificación de errores en cascada"	Un fallo activa reintentos que amplifican la carga downstream.
Disyuntor (circuit breaker)	"Fallo rápido en tasa de error"	Abre cuando la tasa de error supera el umbral; atajo con respuesta por defecto.
STRATUS	"Trío de respuesta a incidentes"	Agentes de detección + diagnóstico + validación. 1.5 veces más éxito en mitigación.
Envenenamiento de memoria	"Las alucinaciones se propagan"	Hecho en memoria compartida corrompido; los agentes downstream razonan sobre veneno.

Lectura Adicional

Cemri et al. — Why Do Multi-Agent LLM Systems Fail? — Taxonomía MAST, NeurIPS 2025
Groupthink failures in multi-agent LLMs — Monocultura, conformidad y la taxonomía de las cinco familias
STRATUS — specialized agents for MAS incident response — Entrada en los anales del NeurIPS 2025 (detección + diagnóstico + validación)
Release It! — stability patterns (Nygard) — La referencia canónica de disyuntores
Anthropic — Multi-agent research system — Notas sobre modos de fallo en producción