Phase 14 - Lesson 26

Modos de Falha: Por Que Agentes Quebram

O MASFT (Berkeley, 2025) cataloga 14 modos de falha multiagente em 3 categorias. A Taxonomia da Microsoft documenta como as falhas de IA existentes se amplificam em ambientes de agentes. Dados de campo da indústria convergem em cinco modos recorrentes: ações alucinadas, desvio de escopo, erros em cascata, perda de contexto e mau uso de ferramentas.

Tipo: Learn + Build Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 05 (Self-Refine and CRITIC), Phase 14 · 24 (Observability) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Nomear as três categorias de falha do MASFT e pelo menos quatro modos específicos em cada uma.
  • Explicar por que falhas em agentes amplificam os modos de falha de IA existentes (viés, alucinação).
  • Descrever os cinco modos recorrentes na indústria e suas mitigações.
  • Implementar um detector em stdlib que rotula traces de agentes com marcadores de modo de falha.

O Problema

As equipes entregam agentes que funcionam em 90% dos traces. Os 10% de falhas não são ruído aleatório — eles se enquadram em um pequeno número de categorias recorrentes. Uma vez que você consegue nomeá-los, você pode monitorá-los e corrigi-los.

O Conceito

MASFT (Berkeley, arXiv:2503.13657)

Multi-Agent System Failure Taxonomy (Taxonomia de Falhas em Sistemas Multiagente). 14 modos de falha agrupados em 3 categorias. Kappa de Cohen entre anotadores de 0,88 — as categorias são confiavelmente distinguíveis.

Alegação central: as falhas são falhas de design fundamentais em sistemas multiagente, não limitações dos LLMs a serem corrigidas com melhores modelos base.

Taxonomia da Microsoft de Modos de Falha em Sistemas de IA Baseados em Agentes

  • As falhas de IA existentes (viés, alucinação, vazamento de dados) se amplificam em ambientes de agentes.
  • Novas falhas surgem da autonomia: ações não intencionais em escala, mau uso de ferramentas, desvio de missão.
  • O whitepaper é o registro de riscos para produtos baseados em agentes.

Characterizing Faults in Agentic AI (arXiv:2603.06847)

  • As falhas surgem da orquestração, da evolução do estado interno e da interação com o ambiente.
  • Não se trata apenas de "código ruim" ou "saída ruim do modelo".

LLM Agent Hallucinations Survey (arXiv:2509.18970)

Duas manifestações principais:

  1. Desvio no cumprimento de instruções (Instruction-following Deviation) — o agente não segue o system prompt.
  2. Mau uso de contexto de longo alcance (Long-range Contextual Misuse) — o agente esquece ou aplica incorretamente o contexto de turnos anteriores.

Erros de subintenção: Omissão (etapa perdida), Redundância (etapa repetida), Desordem (etapas fora de ordem).

Os cinco modos recorrentes na indústria

As análises de campo da Arize, Galileo e NimbleBrain de 2024-2026 convergem para:

  1. Ações alucinadas. O agente invoca uma ferramenta que não existe ou inventa argumentos.
  2. Desvio de escopo. O agente expande a tarefa além do solicitado pelo usuário (cria PRs extras, envia e-mails extras).
  3. Erros em cascata. Uma chamada errada desencadeia efeitos a jusante. A alucinação de um SKU fantasma aciona quatro chamadas de API — um incidente multissistemas.
  4. Perda de contexto. Tarefas de longo horizonte esquecem as restrições dos turnos iniciais.
  5. Mau uso de ferramentas. Chama a ferramenta certa com argumentos errados ou chama a ferramenta errada por completo.

A cascata é a grande vilã. Os agentes não conseguem distinguir "eu falhei" de "a tarefa é impossível" e frequentemente alucinam uma mensagem de sucesso em erros 400 para fechar o ciclo.

Mitigação: portões a cada etapa

Portões de verificação automatizados em cada etapa de uma cadeia de raciocínio, verificando a fundamentação factual contra o estado do ambiente. Concretamente:

  • Classificador de segurança por etapa (Lição 21).
  • Validação de argumentos de chamada de ferramenta (Lição 06).
  • Verificação cruzada de conteúdo recuperado contra fatos conhecidos (Lição 05, CRITIC).
  • Detectar alucinação de sucesso testando novamente o estado (o arquivo foi realmente criado?).

Onde o monitoramento de falhas dá errado

  • Rotular apenas travamentos (crashes). A maioria das falhas de agentes produz saídas que parecem válidas. São necessárias verificações no nível do conteúdo.
  • Ausência de baseline. A detecção de desvio (drift) precisa de um último estado sabidamente bom; sem ele, você não pode afirmar "isso está piorando".
  • Excesso de alertas. Cada falha gera um chamado. Agrupe em clusters e limite a frequência de alertas (rate-limit).

Build It

O arquivo code/main.py implementa um rotulador de modo de falha da stdlib:

  • Um conjunto de dados sintéticos de traces cobrindo os cinco modos.
  • Funções detectoras por modo (padrões de assinatura em chamadas de ferramentas, saídas, ações repetidas).
  • Um rotulador que marca cada trace e relata a distribuição dos modos.

Execute:

python3 code/main.py

Saída: rótulos por trace + distribuição agregada, uma reprodução de baixo custo do que o agrupamento de traces do Phoenix revela.

Use It

  • Phoenix para agrupamento de desvios em produção (Lição 24).
  • Langfuse para reprodução de sessão + anotação.
  • Customizado para assinaturas específicas do domínio que sua plataforma de observabilidade não consegue detectar.

Ship It

O arquivo outputs/skill-failure-detector.md gera detectores de modo de falha sob medida para o seu domínio, conectados a um armazenamento de traces.

Exercícios

  1. Adicione um detector para "alucinação de sucesso": o agente retorna sucesso, mas o estado de destino permanece inalterado.
  2. Rotule 100 traces reais de um produto que você construiu. Qual modo domina? Qual é o custo para corrigi-lo?
  3. Implemente uma métrica de "raio de cascata": dada uma falha na etapa N, quantas etapas a jusante ela afetou?
  4. Leia os 14 modos de falha do MASFT. Escolha três que se aplicam ao seu produto. Escreva detectores.
  5. Conecte um detector a um job de CI: falhe a build se >=5% dos traces apresentarem algum modo de falha.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
MASFT "Taxonomia de falhas de multiagente" Categorização de 14 modos de Berkeley
Erro em cascata "Falha em cadeia" Um erro inicial se propaga por N etapas subsequentes
Perda de contexto "Esqueceu a restrição" Turno de longo horizonte descarta fatos de turnos anteriores
Mau uso de ferramentas "Ferramenta errada / argumentos errados" Chamada válida, invocação incorreta
Alucinação de sucesso "Falsa conclusão" O agente alega sucesso em um erro 400; estado inalterado
Desvio de escopo "Extrapolação" O agente faz mais do que o solicitado
Desvio no cumprimento de instruções "Desobediência" Ignora o system prompt ou a restrição do usuário
Erros de subintenção "Bugs de planejamento" Omissão, redundância ou desordem na execução do plano

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).