Phase 17 - Lesson 23
SRE para IA — Resposta a Incidentes Multiagente, Runbooks, Detecção Preditiva
O AI SRE usa LLMs ancorados em dados de infraestrutura (logs, runbooks, topologia de serviço) via RAG para automatizar as fases de investigação, documentação e coordenação. O padrão de arquitetura de 2026 é a orquestração multiagente — agentes especializados (logs, métricas, runbooks) coordenados por um supervisor; a IA propõe hipóteses e consultas, enquanto os humanos aprovam decisões de julgamento. O Datadog Bits AI e o Azure SRE Agent oferecem isso como produtos gerenciados. Os runbooks estão evoluindo: o NeuBird Hawkeye usa avaliação adversária (dois modelos analisam o mesmo incidente; concordância = confiança, discordância = incerteza); a memória operacional persiste apesar da rotatividade da equipe. A auto-resolução (auto-remediation) permanece cautelosa: a IA sugere, os humanos aprovam. A ação totalmente autônoma é limitada (reiniciar pod, reverter deploy específico) e com proteções rígidas — qualquer um que venda "configure e esqueça" está exagerando. A fronteira emergente é a detecção pré-incidente. Uma pesquisa do MIT relata que um LLM treinado em logs históricos + temperaturas de GPU + padrões de erro de API previu 89% das interrupções com 10 a 15 minutos de antecedência. Projeção: 95% dos LLMs corporativos terão failover automatizado até o final de 2026.
Tipo: Learn Linguagens: Python (stdlib, simulador de triagem de incidentes multiagente de brinquedo) Pré-requisitos: Phase 17 · 13 (Observability), Phase 17 · 24 (Chaos Engineering) Tempo: ~60 minutos
Objetivos de Aprendizagem
- Esquematizar a arquitetura de AI SRE multiagente: supervisor + agentes especializados (logs, métricas, runbooks) + barreira de aprovação humana.
- Explicar por que a auto-resolução é limitada (reiniciar pod, reverter deploy) em vez de ampla (rearquitetar serviço).
- Nomear o padrão de avaliação adversária (NeuBird Hawkeye): dois modelos concordam = confiança; discordam = escalonamento.
- Citar o resultado do MIT de 89% de detecção antecipada e a restrição operacional: previsões sem atuação são apenas painéis (dashboards).
O Problema
Um engenheiro de plantão é acionado (paged) às 3 da manhã. "Taxa de erro alta no checkout." Ele verifica o Datadog, Loki, três runbooks e o log de deploy. 30 minutos depois, ele percebe que a causa raiz é um OOM do vLLM devido a um pico no KV cache. Ele reinicia o pod; o erro desaparece.
Em 2026, os primeiros 20 minutos dessa investigação são automatizáveis. Agrupar logs por serviço, correlacionar com deploys recentes, cruzar com runbooks — tudo isso é RAG + uso de ferramentas (tool-use). Um agente supervisionado pode fazer a triagem inicial e apresentar uma hipótese antes mesmo que o humano abra o Datadog.
A auto-resolução totalmente autônoma é um problema diferente. Reiniciar pod: seguro. Escalar o pool de GPUs: seguro se a política permitir. Rearquitetar o serviço: absolutamente não. A disciplina está em traçar essa linha estreita de limites.
O Conceito
Arquitetura multiagente
Incidente
│
▼
Supervisor
/ | \
▼ ▼ ▼
Agente Log Agente Métrica Agente Runbook
│ │ │
└─────┴─────┘
│
▼
Hipótese + evidência
│
▼
Aprovação humana
│
▼
Ação (limitada)
Supervisor divide o incidente em subconsultas. Agentes especializados têm acesso a ferramentas (pesquisa de logs, PromQL, recuperação de documentos). O supervisor sintetiza e apresenta a hipótese + evidência ao humano. O humano aprova ou redireciona.
Escopo da auto-resolução
Seguro (limitado): reiniciar pod, reverter um deploy específico, escalar pool dentro dos limites pré-aprovados, habilitar uma flag de funcionalidade pré-aprovada.
Inseguro (amplo): alterar topologia do serviço, modificar limites de recursos, implantar código novo, alterar IAM, alterar bancos de dados.
Qualquer um que venda "configure e esqueça" está exagerando. O conjunto seguro cresce à medida que o AI SRE amadurece, mas a fronteira é real.
Avaliação adversária (NeuBird Hawkeye)
Dois modelos analisam o mesmo incidente de forma independente. Se concordarem na causa raiz, a confiança é alta. Se discordarem, escalam para o humano mostrando ambas as hipóteses. Padrão simples, filtro eficaz contra causas raiz alucinadas.
Memória operacional
A rotatividade da equipe é a morte silenciosa do SRE tradicional — o conhecimento tribal vai embora. O AI SRE armazena runbooks + relatórios pós-incidente (post-mortems) em um banco de dados vetorial; os agentes os recuperam a cada novo incidente. Quando novos engenheiros entram na equipe, a IA tem o histórico completo.
Detecção pré-incidente
Pesquisa do MIT de 2025: LLM treinado em logs históricos, temperaturas de GPU e padrões de erro de API previu 89% das interrupções de 10 a 15 minutos antes de ocorrerem no conjunto de teste.
Choque de realidade: previsões sem atuação são apenas painéis. A questão operacional é "quando prevermos, o que fazemos?". Esvaziamento preventivo (pre-emptive drain)? Acionamento do plantão (pager)? Auto-escalonamento? A resposta depende de cada política.
Produtos em 2026
- Datadog Bits AI — copiloto de SRE gerenciado dentro do Datadog.
- Azure SRE Agent — nativo do Azure.
- NeuBird Hawkeye — avaliação adversária + memória operacional.
- PagerDuty AIOps — triagem + desduplicação.
- Incident.io Autopilot — comandante de incidentes + coordenação.
Runbooks como código
Os runbooks evoluem de páginas do Confluence para markdown versionado com seções estruturadas (sintoma, hipótese, verificação, ação). Runbooks estruturados alimentam melhor a recuperação de RAG. Comece qualquer implementação de AI-SRE transformando runbooks não estruturados em estruturados.
Números que você deve lembrar
- Detecção antecipada do MIT: 89% das interrupções, tempo de antecedência de 10-15 min.
- Triagem multiagente: supervisor + (logs, métricas, runbooks) + humano.
- Conjunto de auto-resolução seguro: reiniciar pod, reverter deploy, escalar dentro dos limites.
- Avaliação adversária: dois modelos independentes; concordância = confiança.
Use
code/main.py simula uma triagem multiagente: o agente de log encontra o erro, o agente de métricas encontra o pico de CPU, e o agente de runbook faz a correspondência com um problema conhecido. O supervisor classifica as hipóteses.
Entregue
Esta lição produz outputs/skill-ai-sre-plan.md. Diante do plantão atual, volume de incidentes e maturidade da equipe, projeta a implementação do AI SRE.
Exercícios
- Execute
code/main.py. E se os agentes de log e de métricas discordarem? Como o supervisor resolve? - Defina três ações de auto-resolução "seguras" para o seu serviço. Justifique cada uma.
- Escreva um modelo de runbook estruturado: seções, campos obrigatórios, comandos de verificação.
- A detecção preditiva dispara com 12 minutos de antecedência. Qual é a sua política — acionar plantão, drenagem prévia (pre-drain) ou ambos?
- Argumente se uma equipe de 3 pessoas deve adotar AI SRE em 2026 ou esperar. Considere maturidade, volume e risco.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| AI SRE | "agente para o plantão" | Investigação e coordenação de incidentes apoiada por LLM |
| Agente Supervisor | "o orquestrador" | Agente de alto nível que divide incidentes em subconsultas |
| Agente especializado | "agente de domínio" | Subagente com acesso a ferramentas (logs, métricas, runbooks) |
| Auto-resolução | "a IA conserta" | Ação limitada e pré-aprovada; NÃO uma ampla rearquitetura |
| Memória operacional | "runbooks em vetores" | Relatórios pós-incidente + runbooks em banco de dados vetorial para RAG |
| Avaliação adversária | "verificação de dois modelos" | Análises independentes; concordância = confiança |
| NeuBird Hawkeye | "o adversário" | Produto com padrão de avaliação adversária + memória |
| Bits AI | "agente de SRE do Datadog" | AI SRE gerenciado pelo Datadog |
| Detecção pré-incidente | "detecção precoce" | Tempo de antecedência de 10-15 min para previsão de indisponibilidade |