Phase 17 - Lesson 23

SRE para IA — Resposta a Incidentes Multiagente, Runbooks, Detecção Preditiva

O AI SRE usa LLMs ancorados em dados de infraestrutura (logs, runbooks, topologia de serviço) via RAG para automatizar as fases de investigação, documentação e coordenação. O padrão de arquitetura de 2026 é a orquestração multiagente — agentes especializados (logs, métricas, runbooks) coordenados por um supervisor; a IA propõe hipóteses e consultas, enquanto os humanos aprovam decisões de julgamento. O Datadog Bits AI e o Azure SRE Agent oferecem isso como produtos gerenciados. Os runbooks estão evoluindo: o NeuBird Hawkeye usa avaliação adversária (dois modelos analisam o mesmo incidente; concordância = confiança, discordância = incerteza); a memória operacional persiste apesar da rotatividade da equipe. A auto-resolução (auto-remediation) permanece cautelosa: a IA sugere, os humanos aprovam. A ação totalmente autônoma é limitada (reiniciar pod, reverter deploy específico) e com proteções rígidas — qualquer um que venda "configure e esqueça" está exagerando. A fronteira emergente é a detecção pré-incidente. Uma pesquisa do MIT relata que um LLM treinado em logs históricos + temperaturas de GPU + padrões de erro de API previu 89% das interrupções com 10 a 15 minutos de antecedência. Projeção: 95% dos LLMs corporativos terão failover automatizado até o final de 2026.

Tipo: Learn Linguagens: Python (stdlib, simulador de triagem de incidentes multiagente de brinquedo) Pré-requisitos: Phase 17 · 13 (Observability), Phase 17 · 24 (Chaos Engineering) Tempo: ~60 minutos

Objetivos de Aprendizagem

Esquematizar a arquitetura de AI SRE multiagente: supervisor + agentes especializados (logs, métricas, runbooks) + barreira de aprovação humana.
Explicar por que a auto-resolução é limitada (reiniciar pod, reverter deploy) em vez de ampla (rearquitetar serviço).
Nomear o padrão de avaliação adversária (NeuBird Hawkeye): dois modelos concordam = confiança; discordam = escalonamento.
Citar o resultado do MIT de 89% de detecção antecipada e a restrição operacional: previsões sem atuação são apenas painéis (dashboards).

O Problema

Um engenheiro de plantão é acionado (paged) às 3 da manhã. "Taxa de erro alta no checkout." Ele verifica o Datadog, Loki, três runbooks e o log de deploy. 30 minutos depois, ele percebe que a causa raiz é um OOM do vLLM devido a um pico no KV cache. Ele reinicia o pod; o erro desaparece.

Em 2026, os primeiros 20 minutos dessa investigação são automatizáveis. Agrupar logs por serviço, correlacionar com deploys recentes, cruzar com runbooks — tudo isso é RAG + uso de ferramentas (tool-use). Um agente supervisionado pode fazer a triagem inicial e apresentar uma hipótese antes mesmo que o humano abra o Datadog.

A auto-resolução totalmente autônoma é um problema diferente. Reiniciar pod: seguro. Escalar o pool de GPUs: seguro se a política permitir. Rearquitetar o serviço: absolutamente não. A disciplina está em traçar essa linha estreita de limites.

O Conceito

Arquitetura multiagente

          Incidente
              │
              ▼
         Supervisor
         /    |    \
        ▼     ▼     ▼
Agente Log  Agente Métrica Agente Runbook
        │     │     │
        └─────┴─────┘
              │
              ▼
        Hipótese + evidência
              │
              ▼
       Aprovação humana
              │
              ▼
        Ação (limitada)

Supervisor divide o incidente em subconsultas. Agentes especializados têm acesso a ferramentas (pesquisa de logs, PromQL, recuperação de documentos). O supervisor sintetiza e apresenta a hipótese + evidência ao humano. O humano aprova ou redireciona.

Escopo da auto-resolução

Seguro (limitado): reiniciar pod, reverter um deploy específico, escalar pool dentro dos limites pré-aprovados, habilitar uma flag de funcionalidade pré-aprovada.

Inseguro (amplo): alterar topologia do serviço, modificar limites de recursos, implantar código novo, alterar IAM, alterar bancos de dados.

Qualquer um que venda "configure e esqueça" está exagerando. O conjunto seguro cresce à medida que o AI SRE amadurece, mas a fronteira é real.

Avaliação adversária (NeuBird Hawkeye)

Dois modelos analisam o mesmo incidente de forma independente. Se concordarem na causa raiz, a confiança é alta. Se discordarem, escalam para o humano mostrando ambas as hipóteses. Padrão simples, filtro eficaz contra causas raiz alucinadas.

Memória operacional

A rotatividade da equipe é a morte silenciosa do SRE tradicional — o conhecimento tribal vai embora. O AI SRE armazena runbooks + relatórios pós-incidente (post-mortems) em um banco de dados vetorial; os agentes os recuperam a cada novo incidente. Quando novos engenheiros entram na equipe, a IA tem o histórico completo.

Detecção pré-incidente

Pesquisa do MIT de 2025: LLM treinado em logs históricos, temperaturas de GPU e padrões de erro de API previu 89% das interrupções de 10 a 15 minutos antes de ocorrerem no conjunto de teste.

Choque de realidade: previsões sem atuação são apenas painéis. A questão operacional é "quando prevermos, o que fazemos?". Esvaziamento preventivo (pre-emptive drain)? Acionamento do plantão (pager)? Auto-escalonamento? A resposta depende de cada política.

Produtos em 2026

Datadog Bits AI — copiloto de SRE gerenciado dentro do Datadog.
Azure SRE Agent — nativo do Azure.
NeuBird Hawkeye — avaliação adversária + memória operacional.
PagerDuty AIOps — triagem + desduplicação.
Incident.io Autopilot — comandante de incidentes + coordenação.

Runbooks como código

Os runbooks evoluem de páginas do Confluence para markdown versionado com seções estruturadas (sintoma, hipótese, verificação, ação). Runbooks estruturados alimentam melhor a recuperação de RAG. Comece qualquer implementação de AI-SRE transformando runbooks não estruturados em estruturados.

Números que você deve lembrar

Detecção antecipada do MIT: 89% das interrupções, tempo de antecedência de 10-15 min.
Triagem multiagente: supervisor + (logs, métricas, runbooks) + humano.
Conjunto de auto-resolução seguro: reiniciar pod, reverter deploy, escalar dentro dos limites.
Avaliação adversária: dois modelos independentes; concordância = confiança.

Use

code/main.py simula uma triagem multiagente: o agente de log encontra o erro, o agente de métricas encontra o pico de CPU, e o agente de runbook faz a correspondência com um problema conhecido. O supervisor classifica as hipóteses.

Entregue

Esta lição produz outputs/skill-ai-sre-plan.md. Diante do plantão atual, volume de incidentes e maturidade da equipe, projeta a implementação do AI SRE.

Exercícios

Execute code/main.py. E se os agentes de log e de métricas discordarem? Como o supervisor resolve?
Defina três ações de auto-resolução "seguras" para o seu serviço. Justifique cada uma.
Escreva um modelo de runbook estruturado: seções, campos obrigatórios, comandos de verificação.
A detecção preditiva dispara com 12 minutos de antecedência. Qual é a sua política — acionar plantão, drenagem prévia (pre-drain) ou ambos?
Argumente se uma equipe de 3 pessoas deve adotar AI SRE em 2026 ou esperar. Considere maturidade, volume e risco.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
AI SRE	"agente para o plantão"	Investigação e coordenação de incidentes apoiada por LLM
Agente Supervisor	"o orquestrador"	Agente de alto nível que divide incidentes em subconsultas
Agente especializado	"agente de domínio"	Subagente com acesso a ferramentas (logs, métricas, runbooks)
Auto-resolução	"a IA conserta"	Ação limitada e pré-aprovada; NÃO uma ampla rearquitetura
Memória operacional	"runbooks em vetores"	Relatórios pós-incidente + runbooks em banco de dados vetorial para RAG
Avaliação adversária	"verificação de dois modelos"	Análises independentes; concordância = confiança
NeuBird Hawkeye	"o adversário"	Produto com padrão de avaliação adversária + memória
Bits AI	"agente de SRE do Datadog"	AI SRE gerenciado pelo Datadog
Detecção pré-incidente	"detecção precoce"	Tempo de antecedência de 10-15 min para previsão de indisponibilidade