Phase 14 - Lesson 26

Modos de Fallo: Por Qué se Rompen los Agentes

MASFT (Berkeley, 2025) cataloga 14 modos de fallo multiagente en 3 categorías. La Taxonomía de Microsoft documenta cómo los fallos de IA existentes se amplifican en entornos de agentes. Los datos de campo de la industria convergen en los cinco modos recurrentes: acciones alucinadas, desvío de alcance, errores en cascada, pérdida de contexto y mal uso de herramientas.

Tipo: Learn + Build Lenguajes: Python (stdlib) Prerrequisitos: Phase 14 · 05 (Self-Refine and CRITIC), Phase 14 · 24 (Observability) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Nombrar las tres categorías de fallos de MASFT y al menos cuatro modos específicos en cada una.
Explicar por qué los fallos de los agentes amplifican los modos de fallo de IA existentes (sesgo, alucinación).
Describir los cinco modos recurrentes en la industria y sus mitigaciones.
Implementar un detector en stdlib que etiquete los traces de agentes con marcadores de modos de fallo.

El Problema

Los equipos entregan agentes que funcionan en el 90% de los traces. El 10% de fallos no son ruido aleatorio; se encuadran en un pequeño número de categorías recurrentes. Una vez que puedes nombrarlos, puedes monitorearlos y corregirlos.

El Concepto

MASFT (Berkeley, arXiv:2503.13657)

Multi-Agent System Failure Taxonomy (Taxonomía de Fallos en Sistemas Multiagente). 14 modos de fallo agrupados en 3 categorías. Kappa de Cohen entre anotadores de 0.88: las categorías son distinguibles de manera confiable.

Afirmación central: los fallos son defectos de diseño fundamentales en los sistemas multiagente, no limitaciones de los LLM que deban solucionarse con mejores modelos base.

Taxonomía de Microsoft de Modos de Fallo en Sistemas de IA basados en Agentes

Los fallos de IA existentes (sesgo, alucinación, fuga de datos) se amplifican en entornos de agentes.
Nuevos fallos surgen de la autonomía: acciones no intencionadas a escala, mal uso de herramientas, desvío de misión.
El whitepaper es el registro de riesgos para productos basados en agentes.

Characterizing Faults in Agentic AI (arXiv:2603.06847)

Los fallos surgen de la orquestación, la evolución del estado interno y la interacción con el entorno.
No se trata solo de "código defectuoso" o "salida defectuosa del modelo".

LLM Agent Hallucinations Survey (arXiv:2509.18970)

Dos manifestaciones principales:

Desviación en el seguimiento de instrucciones (Instruction-following Deviation): el agente no sigue el system prompt.
Uso incorrecto de contexto de largo alcance (Long-range Contextual Misuse): el agente olvida o aplica incorrectamente el contexto de turnos anteriores.

Errores de subintención: Omisión (paso omitido), Redundancia (paso repetido), Desorden (pasos fuera de orden).

Los cinco modos recurrentes en la industria

Los análisis de campo de Arize, Galileo y NimbleBrain (2024-2026) convergen en:

Acciones alucinadas. El agente invoca una herramienta que no existe o inventa argumentos.
Desvío de alcance. El agente expande la tarea más allá de lo solicitado por el usuario (crea PRs adicionales, envía correos adicionales).
Errores en cascada. Una llamada incorrecta desencadena efectos a nivel descendente. La alucinación de un SKU fantasma activa cuatro llamadas de API: un incidente multisistema.
Pérdida de contexto. Las tareas de largo alcance olvidan las restricciones de los turnos iniciales.
Mal uso de herramientas. Llama a la herramienta correcta con argumentos incorrectos, o a la herramienta incorrecta por completo.

La cascada es el factor letal. Los agentes no pueden distinguir entre "fallé" y "la tarea es imposible", y a menudo alucinan un mensaje de éxito en errores 400 para cerrar el ciclo.

Mitigación: compuertas en cada paso

Compuertas de verificación automatizadas en cada paso de una cadena de razonamiento, que verifican el sustento fáctico frente al estado del entorno. Concretamente:

Clasificador de seguridad por paso (Lección 21).
Validación de argumentos de llamadas a herramientas (Lección 06).
Verificación cruzada del contenido recuperado con hechos conocidos (Lección 05, CRITIC).
Detectar alucinaciones de éxito probando nuevamente el estado (¿realmente se creó el archivo?).

Dónde falla el monitoreo de fallos

Etiquetar solo caídas (crashes). La mayoría de los fallos de los agentes producen salidas que parecen válidas. Se necesitan comprobaciones a nivel de contenido.
Ausencia de baseline. La detección de desvío (drift) necesita un último estado conocido como bueno; sin él, no se puede afirmar "esto está empeorando".
Exceso de alertas. Cada fallo genera una alerta. Agrupe en clusters y limite la frecuencia (rate-limit).

Build It

El archivo code/main.py implementa un etiquetador de modos de fallo con stdlib:

Un conjunto de datos sintéticos de traces que cubre los cinco modos.
Funciones detectoras por modo (patrones de firma en llamadas a herramientas, salidas, acciones repetidas).
Un etiquetador que marca cada trace y reporta la distribución de los modos.

Ejecútelo:

python3 code/main.py

Salida: etiquetas por trace + distribución agregada, una reproducción económica de lo que revela el agrupamiento de traces de Phoenix.

Use It

Phoenix para el agrupamiento de desvíos en producción (Lección 24).
Langfuse para reproducción de sesiones + anotación.
Personalizado para firmas específicas del dominio que su plataforma de observabilidad no puede detectar.

Ship It

El archivo outputs/skill-failure-detector.md genera detectores de modos de fallo adaptados a su dominio, conectados a un almacenamiento de traces.

Ejercicios

Agregue un detector para "alucinación de éxito": el agente devuelve éxito pero el estado de destino no cambia.
Etiquete 100 traces reales de un producto que haya construido. ¿Qué modo domina? ¿Cuál es el costo de solucionarlo?
Implemente una métrica de "radio de cascada": dado un fallo en el paso N, ¿a cuántos pasos descendentes afectó?
Lea los 14 modos de fallo de MASFT. Elija tres que se apliquen a su producto. Escriba detectores.
Conecte un detector a un job de CI: falle la build si >=5% de los traces activan un modo de fallo.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
MASFT	"Taxonomía de fallos multiagente"	Categorización de 14 modos de Berkeley
Error en cascada	"Fallo en cadena"	Un error temprano se propaga a través de N pasos
Pérdida de contexto	"Olvidó la restricción"	El turno de largo alcance descarta hechos de turnos anteriores
Mal uso de herramientas	"Herramienta incorrecta / argumentos incorrectos"	Llamada válida, invocación incorrecta
Alucinación de éxito	"Falsa finalización"	El agente alega éxito en un error 400; estado sin cambios
Desvío de alcance	"Extrapolación"	El agente hace más de lo solicitado
Desviación en el seguimiento de instrucciones	"Desobediencia"	Ignora el system prompt o la restricción del usuario
Errores de subintención	"Bugs de planificación"	Omisión, redundancia o desorden en la ejecución de la planificación

Lecturas Adicionales

Cemri et al., MASFT (arXiv:2503.13657) — 14 modos de fallo, 3 categorías
Microsoft, Taxonomy of Failure Mode in Agentic AI Systems — registro de riesgos
Arize Phoenix — agrupamiento de desvíos en la práctica
Anthropic, Building Effective Agents — cuando patrones más simples evitan por completo los modos de fallo