Phase 14 - Lesson 26

Modos de Falha: Por Que Agentes Quebram

O MASFT (Berkeley, 2025) cataloga 14 modos de falha multiagente em 3 categorias. A Taxonomia da Microsoft documenta como as falhas de IA existentes se amplificam em ambientes de agentes. Dados de campo da indústria convergem em cinco modos recorrentes: ações alucinadas, desvio de escopo, erros em cascata, perda de contexto e mau uso de ferramentas.

Tipo: Learn + Build Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 05 (Self-Refine and CRITIC), Phase 14 · 24 (Observability) Tempo: ~60 minutos

Objetivos de Aprendizado

Nomear as três categorias de falha do MASFT e pelo menos quatro modos específicos em cada uma.
Explicar por que falhas em agentes amplificam os modos de falha de IA existentes (viés, alucinação).
Descrever os cinco modos recorrentes na indústria e suas mitigações.
Implementar um detector em stdlib que rotula traces de agentes com marcadores de modo de falha.

O Problema

As equipes entregam agentes que funcionam em 90% dos traces. Os 10% de falhas não são ruído aleatório — eles se enquadram em um pequeno número de categorias recorrentes. Uma vez que você consegue nomeá-los, você pode monitorá-los e corrigi-los.

O Conceito

MASFT (Berkeley, arXiv:2503.13657)

Multi-Agent System Failure Taxonomy (Taxonomia de Falhas em Sistemas Multiagente). 14 modos de falha agrupados em 3 categorias. Kappa de Cohen entre anotadores de 0,88 — as categorias são confiavelmente distinguíveis.

Alegação central: as falhas são falhas de design fundamentais em sistemas multiagente, não limitações dos LLMs a serem corrigidas com melhores modelos base.

Taxonomia da Microsoft de Modos de Falha em Sistemas de IA Baseados em Agentes

As falhas de IA existentes (viés, alucinação, vazamento de dados) se amplificam em ambientes de agentes.
Novas falhas surgem da autonomia: ações não intencionais em escala, mau uso de ferramentas, desvio de missão.
O whitepaper é o registro de riscos para produtos baseados em agentes.

Characterizing Faults in Agentic AI (arXiv:2603.06847)

As falhas surgem da orquestração, da evolução do estado interno e da interação com o ambiente.
Não se trata apenas de "código ruim" ou "saída ruim do modelo".

LLM Agent Hallucinations Survey (arXiv:2509.18970)

Duas manifestações principais:

Desvio no cumprimento de instruções (Instruction-following Deviation) — o agente não segue o system prompt.
Mau uso de contexto de longo alcance (Long-range Contextual Misuse) — o agente esquece ou aplica incorretamente o contexto de turnos anteriores.

Erros de subintenção: Omissão (etapa perdida), Redundância (etapa repetida), Desordem (etapas fora de ordem).

Os cinco modos recorrentes na indústria

As análises de campo da Arize, Galileo e NimbleBrain de 2024-2026 convergem para:

Ações alucinadas. O agente invoca uma ferramenta que não existe ou inventa argumentos.
Desvio de escopo. O agente expande a tarefa além do solicitado pelo usuário (cria PRs extras, envia e-mails extras).
Erros em cascata. Uma chamada errada desencadeia efeitos a jusante. A alucinação de um SKU fantasma aciona quatro chamadas de API — um incidente multissistemas.
Perda de contexto. Tarefas de longo horizonte esquecem as restrições dos turnos iniciais.
Mau uso de ferramentas. Chama a ferramenta certa com argumentos errados ou chama a ferramenta errada por completo.

A cascata é a grande vilã. Os agentes não conseguem distinguir "eu falhei" de "a tarefa é impossível" e frequentemente alucinam uma mensagem de sucesso em erros 400 para fechar o ciclo.

Mitigação: portões a cada etapa

Portões de verificação automatizados em cada etapa de uma cadeia de raciocínio, verificando a fundamentação factual contra o estado do ambiente. Concretamente:

Classificador de segurança por etapa (Lição 21).
Validação de argumentos de chamada de ferramenta (Lição 06).
Verificação cruzada de conteúdo recuperado contra fatos conhecidos (Lição 05, CRITIC).
Detectar alucinação de sucesso testando novamente o estado (o arquivo foi realmente criado?).

Onde o monitoramento de falhas dá errado

Rotular apenas travamentos (crashes). A maioria das falhas de agentes produz saídas que parecem válidas. São necessárias verificações no nível do conteúdo.
Ausência de baseline. A detecção de desvio (drift) precisa de um último estado sabidamente bom; sem ele, você não pode afirmar "isso está piorando".
Excesso de alertas. Cada falha gera um chamado. Agrupe em clusters e limite a frequência de alertas (rate-limit).

Build It

O arquivo code/main.py implementa um rotulador de modo de falha da stdlib:

Um conjunto de dados sintéticos de traces cobrindo os cinco modos.
Funções detectoras por modo (padrões de assinatura em chamadas de ferramentas, saídas, ações repetidas).
Um rotulador que marca cada trace e relata a distribuição dos modos.

Execute:

python3 code/main.py

Saída: rótulos por trace + distribuição agregada, uma reprodução de baixo custo do que o agrupamento de traces do Phoenix revela.

Use It

Phoenix para agrupamento de desvios em produção (Lição 24).
Langfuse para reprodução de sessão + anotação.
Customizado para assinaturas específicas do domínio que sua plataforma de observabilidade não consegue detectar.

Ship It

O arquivo outputs/skill-failure-detector.md gera detectores de modo de falha sob medida para o seu domínio, conectados a um armazenamento de traces.

Exercícios

Adicione um detector para "alucinação de sucesso": o agente retorna sucesso, mas o estado de destino permanece inalterado.
Rotule 100 traces reais de um produto que você construiu. Qual modo domina? Qual é o custo para corrigi-lo?
Implemente uma métrica de "raio de cascata": dada uma falha na etapa N, quantas etapas a jusante ela afetou?
Leia os 14 modos de falha do MASFT. Escolha três que se aplicam ao seu produto. Escreva detectores.
Conecte um detector a um job de CI: falhe a build se >=5% dos traces apresentarem algum modo de falha.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
MASFT	"Taxonomia de falhas de multiagente"	Categorização de 14 modos de Berkeley
Erro em cascata	"Falha em cadeia"	Um erro inicial se propaga por N etapas subsequentes
Perda de contexto	"Esqueceu a restrição"	Turno de longo horizonte descarta fatos de turnos anteriores
Mau uso de ferramentas	"Ferramenta errada / argumentos errados"	Chamada válida, invocação incorreta
Alucinação de sucesso	"Falsa conclusão"	O agente alega sucesso em um erro 400; estado inalterado
Desvio de escopo	"Extrapolação"	O agente faz mais do que o solicitado
Desvio no cumprimento de instruções	"Desobediência"	Ignora o system prompt ou a restrição do usuário
Erros de subintenção	"Bugs de planejamento"	Omissão, redundância ou desordem na execução do plano

Leitura Adicional

Cemri et al., MASFT (arXiv:2503.13657) — 14 modos de falha, 3 categorias
Microsoft, Taxonomy of Failure Mode in Agentic AI Systems — registro de riscos
Arize Phoenix — agrupamento de desvios na prática
Anthropic, Building Effective Agents — quando padrões mais simples evitam completamente modos de falha