Phase 14 - Lesson 26
Modos de Falha: Por Que Agentes Quebram
O MASFT (Berkeley, 2025) cataloga 14 modos de falha multiagente em 3 categorias. A Taxonomia da Microsoft documenta como as falhas de IA existentes se amplificam em ambientes de agentes. Dados de campo da indústria convergem em cinco modos recorrentes: ações alucinadas, desvio de escopo, erros em cascata, perda de contexto e mau uso de ferramentas.
Tipo: Learn + Build Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 05 (Self-Refine and CRITIC), Phase 14 · 24 (Observability) Tempo: ~60 minutos
Objetivos de Aprendizado
- Nomear as três categorias de falha do MASFT e pelo menos quatro modos específicos em cada uma.
- Explicar por que falhas em agentes amplificam os modos de falha de IA existentes (viés, alucinação).
- Descrever os cinco modos recorrentes na indústria e suas mitigações.
- Implementar um detector em stdlib que rotula traces de agentes com marcadores de modo de falha.
O Problema
As equipes entregam agentes que funcionam em 90% dos traces. Os 10% de falhas não são ruído aleatório — eles se enquadram em um pequeno número de categorias recorrentes. Uma vez que você consegue nomeá-los, você pode monitorá-los e corrigi-los.
O Conceito
MASFT (Berkeley, arXiv:2503.13657)
Multi-Agent System Failure Taxonomy (Taxonomia de Falhas em Sistemas Multiagente). 14 modos de falha agrupados em 3 categorias. Kappa de Cohen entre anotadores de 0,88 — as categorias são confiavelmente distinguíveis.
Alegação central: as falhas são falhas de design fundamentais em sistemas multiagente, não limitações dos LLMs a serem corrigidas com melhores modelos base.
Taxonomia da Microsoft de Modos de Falha em Sistemas de IA Baseados em Agentes
- As falhas de IA existentes (viés, alucinação, vazamento de dados) se amplificam em ambientes de agentes.
- Novas falhas surgem da autonomia: ações não intencionais em escala, mau uso de ferramentas, desvio de missão.
- O whitepaper é o registro de riscos para produtos baseados em agentes.
Characterizing Faults in Agentic AI (arXiv:2603.06847)
- As falhas surgem da orquestração, da evolução do estado interno e da interação com o ambiente.
- Não se trata apenas de "código ruim" ou "saída ruim do modelo".
LLM Agent Hallucinations Survey (arXiv:2509.18970)
Duas manifestações principais:
- Desvio no cumprimento de instruções (Instruction-following Deviation) — o agente não segue o system prompt.
- Mau uso de contexto de longo alcance (Long-range Contextual Misuse) — o agente esquece ou aplica incorretamente o contexto de turnos anteriores.
Erros de subintenção: Omissão (etapa perdida), Redundância (etapa repetida), Desordem (etapas fora de ordem).
Os cinco modos recorrentes na indústria
As análises de campo da Arize, Galileo e NimbleBrain de 2024-2026 convergem para:
- Ações alucinadas. O agente invoca uma ferramenta que não existe ou inventa argumentos.
- Desvio de escopo. O agente expande a tarefa além do solicitado pelo usuário (cria PRs extras, envia e-mails extras).
- Erros em cascata. Uma chamada errada desencadeia efeitos a jusante. A alucinação de um SKU fantasma aciona quatro chamadas de API — um incidente multissistemas.
- Perda de contexto. Tarefas de longo horizonte esquecem as restrições dos turnos iniciais.
- Mau uso de ferramentas. Chama a ferramenta certa com argumentos errados ou chama a ferramenta errada por completo.
A cascata é a grande vilã. Os agentes não conseguem distinguir "eu falhei" de "a tarefa é impossível" e frequentemente alucinam uma mensagem de sucesso em erros 400 para fechar o ciclo.
Mitigação: portões a cada etapa
Portões de verificação automatizados em cada etapa de uma cadeia de raciocínio, verificando a fundamentação factual contra o estado do ambiente. Concretamente:
- Classificador de segurança por etapa (Lição 21).
- Validação de argumentos de chamada de ferramenta (Lição 06).
- Verificação cruzada de conteúdo recuperado contra fatos conhecidos (Lição 05, CRITIC).
- Detectar alucinação de sucesso testando novamente o estado (o arquivo foi realmente criado?).
Onde o monitoramento de falhas dá errado
- Rotular apenas travamentos (crashes). A maioria das falhas de agentes produz saídas que parecem válidas. São necessárias verificações no nível do conteúdo.
- Ausência de baseline. A detecção de desvio (drift) precisa de um último estado sabidamente bom; sem ele, você não pode afirmar "isso está piorando".
- Excesso de alertas. Cada falha gera um chamado. Agrupe em clusters e limite a frequência de alertas (rate-limit).
Build It
O arquivo code/main.py implementa um rotulador de modo de falha da stdlib:
- Um conjunto de dados sintéticos de traces cobrindo os cinco modos.
- Funções detectoras por modo (padrões de assinatura em chamadas de ferramentas, saídas, ações repetidas).
- Um rotulador que marca cada trace e relata a distribuição dos modos.
Execute:
python3 code/main.py
Saída: rótulos por trace + distribuição agregada, uma reprodução de baixo custo do que o agrupamento de traces do Phoenix revela.
Use It
- Phoenix para agrupamento de desvios em produção (Lição 24).
- Langfuse para reprodução de sessão + anotação.
- Customizado para assinaturas específicas do domínio que sua plataforma de observabilidade não consegue detectar.
Ship It
O arquivo outputs/skill-failure-detector.md gera detectores de modo de falha sob medida para o seu domínio, conectados a um armazenamento de traces.
Exercícios
- Adicione um detector para "alucinação de sucesso": o agente retorna sucesso, mas o estado de destino permanece inalterado.
- Rotule 100 traces reais de um produto que você construiu. Qual modo domina? Qual é o custo para corrigi-lo?
- Implemente uma métrica de "raio de cascata": dada uma falha na etapa N, quantas etapas a jusante ela afetou?
- Leia os 14 modos de falha do MASFT. Escolha três que se aplicam ao seu produto. Escreva detectores.
- Conecte um detector a um job de CI: falhe a build se >=5% dos traces apresentarem algum modo de falha.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| MASFT | "Taxonomia de falhas de multiagente" | Categorização de 14 modos de Berkeley |
| Erro em cascata | "Falha em cadeia" | Um erro inicial se propaga por N etapas subsequentes |
| Perda de contexto | "Esqueceu a restrição" | Turno de longo horizonte descarta fatos de turnos anteriores |
| Mau uso de ferramentas | "Ferramenta errada / argumentos errados" | Chamada válida, invocação incorreta |
| Alucinação de sucesso | "Falsa conclusão" | O agente alega sucesso em um erro 400; estado inalterado |
| Desvio de escopo | "Extrapolação" | O agente faz mais do que o solicitado |
| Desvio no cumprimento de instruções | "Desobediência" | Ignora o system prompt ou a restrição do usuário |
| Erros de subintenção | "Bugs de planejamento" | Omissão, redundância ou desordem na execução do plano |
Leitura Adicional
- Cemri et al., MASFT (arXiv:2503.13657) — 14 modos de falha, 3 categorias
- Microsoft, Taxonomy of Failure Mode in Agentic AI Systems — registro de riscos
- Arize Phoenix — agrupamento de desvios na prática
- Anthropic, Building Effective Agents — quando padrões mais simples evitam completamente modos de falha