Phase 14 - Lesson 24

Observabilidade de Agentes: Langfuse, Phoenix, Opik

Três plataformas de observabilidade de agentes de código aberto dominam 2026. Langfuse (MIT) — 6M+ instalações/mês, rastreamento + gerenciamento de prompts + avaliações + reprodução de sessão. Arize Phoenix (Elastic 2.0) — avaliações profundas específicas de agentes, relevância de RAG, autoinstrumentação OpenInference. Comet Opik (Apache 2.0) — otimização automatizada de prompts, guardrails, detecção de alucinação com LLM como juiz.

Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 23 (OTel GenAI) Tempo: ~45 minutos

Objetivos de Aprendizado

  • Nomear as três principais plataformas de observabilidade de agentes de código aberto e suas licenças.
  • Distinguir no que cada uma é mais forte: Langfuse (gerenciamento de prompts + sessões), Phoenix (RAG + autoinstrumentação), Opik (otimização + guardrails).
  • Explicar por que 89% das organizações relatam ter observabilidade de agentes implementada até 2026.
  • Implementar um pipeline stdlib trace-to-dashboard com avaliação usando LLM como juiz.

O Problema

O OTel GenAI (Lesson 23) fornece o esquema. Você ainda precisa da plataforma que ingere spans, executa avaliações, armazena versões de prompts e expõe regressões. Os três concorrentes enfatizam partes diferentes do ciclo de vida.

O Conceito

Langfuse (MIT)

  • Mais de 6M de instalações de SDK/mês, mais de 19 mil estrelas no GitHub.
  • Recursos: rastreamento, gerenciamento de prompts com versionamento + playground, avaliações (LLM como juiz, feedback do usuário, personalizadas), reprodução de sessões.
  • Junho de 2025: módulos anteriormente comerciais (LLM como juiz, filas de anotação, experimentos de prompts, Playground) foram disponibilizados como código aberto sob a licença MIT.
  • Mais forte em: observabilidade de ponta a ponta com um ciclo de gerenciamento de prompts integrado.

Arize Phoenix (Elastic License 2.0)

  • Avaliação mais profunda específica para agentes: agrupamento de rastros (trace clustering), detecção de anomalias, relevância de recuperação para RAG.
  • Autoinstrumentação nativa do OpenInference.
  • Combina com o Arize AX gerenciado para produção.
  • Sem versionamento de prompts — posicionado como uma ferramenta de desvio (drift)/regressão comportamental ao lado de plataformas mais amplas.
  • Mais forte em: relevância de RAG, desvio comportamental, detecção de anomalias.

Comet Opik (Apache 2.0)

  • Otimização automatizada de prompts através de experimentos A/B.
  • Guardrails (redação de PII, restrições temáticas).
  • Detecção de alucinação com LLM como juiz.
  • Benchmark da própria medição da Comet: logs + avaliações no Opik em 23.44s vs Langfuse em 327.15s (uma diferença de ~14x) — considere os benchmarks dos fornecedores apenas como um indicativo de direção.
  • Mais forte em: ciclo de otimização, experimentação automatizada, aplicação de guardrails.

Dados da indústria

De acordo com a Maxim (análise de campo de 2026): 89% das organizações já possuem observabilidade de agentes implementada; problemas de qualidade são o principal obstáculo para produção (32% dos entrevistados os citam).

Escolhendo uma

Necessidade Escolha
Tudo-em-um com gerenciamento de prompts Langfuse
Avaliação profunda de RAG + desvio (drift) Phoenix
Otimização automatizada + guardrails Opik
Licença aberta, sem ELv2 Langfuse (MIT) ou Opik (Apache 2.0)
Integração com Datadog / New Relic Qualquer uma — todas exportam OTel

Onde este padrão falha

  • Falta de estratégia de avaliação. O rastreamento sem avaliação é apenas um registro de logs caro.
  • Juiz LLM próprio sem fundamentação (grounding). O padrão CRITIC (Lesson 05) se aplica — os juízes precisam de ferramentas externas para verificação factual.
  • Versões de prompt não vinculadas aos rastros. Quando a produção regredir, você não conseguirá rastrear até o prompt que causou o problema.

Build It

O code/main.py implementa um coletor de rastros da stdlib + avaliador usando LLM como juiz:

  • Ingerir spans no formato GenAI.
  • Agrupar por sessão, marcar execuções com falha (violações de guardrails, avaliações de baixa confiança).
  • Um LLM como juiz roteirizado que pontua as respostas do agente em uma rubrica.
  • Um resumo em formato de dashboard: taxa de falhas, principais motivos de falhas, distribuição de pontuação de avaliação.

Execute:

python3 code/main.py

Saída: pontuações de avaliação por sessão e categorização de falhas correspondentes ao que o Langfuse/Phoenix/Opik exibiria.

Use It

  • Langfuse auto-hospedado ou na nuvem; conecte via OTel ou o SDK deles.
  • Arize Phoenix auto-hospedado; faça autoinstrumentação com OpenInference.
  • Comet Opik auto-hospedado ou na nuvem; ciclo de otimização automatizado.
  • Datadog LLM Observability para equipes mistas de ops+ML que já utilizam o Datadog.

Ship It

O outputs/skill-obs-platform-wiring.md escolhe uma plataforma e conecta rastros + avaliações + versões de prompts em um agente existente.

Exercícios

  1. Exporte uma semana de rastros OTel para a nuvem do Langfuse (nível gratuito). Quais sessões falharam? Por quê?
  2. Escreva uma rubrica de LLM como juiz para o seu domínio (correção factual, tom, aderência ao escopo). Teste em 50 rastros.
  3. Compare o versionamento de prompts do Langfuse com o agrupamento de rastros do Phoenix. Qual deles indica o que quebrou mais rápido?
  4. Leia a documentação de guardrails do Opik. Conecte um guardrail de redação de PII a uma das execuções do seu agente.
  5. Faça um benchmark das três plataformas em seu corpus. Ignore os números publicados pelos fornecedores; meça os seus próprios.

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
Tracing "Coletor de spans" Ingerir spans de OTel / SDK; indexar por sessão
Prompt management "CMS de prompt" Prompts versionados vinculados a rastros
LLM-as-judge "Avaliação automatizada" Um LLM separado pontua a saída do agente em relação a uma rubrica
Session replay "Reprodução de rastro" Passo a passo de execuções anteriores para depuração
RAG relevancy "Qualidade de recuperação" O contexto recuperado corresponde à consulta
Trace clustering "Agrupamento comportamental" Agrupar execuções semelhantes para detecção de desvio (drift)
Guardrail enforcement "Política no momento do log" Verificações de PII/toxicidade/escopo no conteúdo registrado

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).