Phase 14 - Lesson 24

Observabilidade de Agentes: Langfuse, Phoenix, Opik

Três plataformas de observabilidade de agentes de código aberto dominam 2026. Langfuse (MIT) — 6M+ instalações/mês, rastreamento + gerenciamento de prompts + avaliações + reprodução de sessão. Arize Phoenix (Elastic 2.0) — avaliações profundas específicas de agentes, relevância de RAG, autoinstrumentação OpenInference. Comet Opik (Apache 2.0) — otimização automatizada de prompts, guardrails, detecção de alucinação com LLM como juiz.

Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 23 (OTel GenAI) Tempo: ~45 minutos

Objetivos de Aprendizado

Nomear as três principais plataformas de observabilidade de agentes de código aberto e suas licenças.
Distinguir no que cada uma é mais forte: Langfuse (gerenciamento de prompts + sessões), Phoenix (RAG + autoinstrumentação), Opik (otimização + guardrails).
Explicar por que 89% das organizações relatam ter observabilidade de agentes implementada até 2026.
Implementar um pipeline stdlib trace-to-dashboard com avaliação usando LLM como juiz.

O Problema

O OTel GenAI (Lesson 23) fornece o esquema. Você ainda precisa da plataforma que ingere spans, executa avaliações, armazena versões de prompts e expõe regressões. Os três concorrentes enfatizam partes diferentes do ciclo de vida.

O Conceito

Langfuse (MIT)

Mais de 6M de instalações de SDK/mês, mais de 19 mil estrelas no GitHub.
Recursos: rastreamento, gerenciamento de prompts com versionamento + playground, avaliações (LLM como juiz, feedback do usuário, personalizadas), reprodução de sessões.
Junho de 2025: módulos anteriormente comerciais (LLM como juiz, filas de anotação, experimentos de prompts, Playground) foram disponibilizados como código aberto sob a licença MIT.
Mais forte em: observabilidade de ponta a ponta com um ciclo de gerenciamento de prompts integrado.

Arize Phoenix (Elastic License 2.0)

Avaliação mais profunda específica para agentes: agrupamento de rastros (trace clustering), detecção de anomalias, relevância de recuperação para RAG.
Autoinstrumentação nativa do OpenInference.
Combina com o Arize AX gerenciado para produção.
Sem versionamento de prompts — posicionado como uma ferramenta de desvio (drift)/regressão comportamental ao lado de plataformas mais amplas.
Mais forte em: relevância de RAG, desvio comportamental, detecção de anomalias.

Comet Opik (Apache 2.0)

Otimização automatizada de prompts através de experimentos A/B.
Guardrails (redação de PII, restrições temáticas).
Detecção de alucinação com LLM como juiz.
Benchmark da própria medição da Comet: logs + avaliações no Opik em 23.44s vs Langfuse em 327.15s (uma diferença de ~14x) — considere os benchmarks dos fornecedores apenas como um indicativo de direção.
Mais forte em: ciclo de otimização, experimentação automatizada, aplicação de guardrails.

Dados da indústria

De acordo com a Maxim (análise de campo de 2026): 89% das organizações já possuem observabilidade de agentes implementada; problemas de qualidade são o principal obstáculo para produção (32% dos entrevistados os citam).

Escolhendo uma

Necessidade	Escolha
Tudo-em-um com gerenciamento de prompts	Langfuse
Avaliação profunda de RAG + desvio (drift)	Phoenix
Otimização automatizada + guardrails	Opik
Licença aberta, sem ELv2	Langfuse (MIT) ou Opik (Apache 2.0)
Integração com Datadog / New Relic	Qualquer uma — todas exportam OTel

Onde este padrão falha

Falta de estratégia de avaliação. O rastreamento sem avaliação é apenas um registro de logs caro.
Juiz LLM próprio sem fundamentação (grounding). O padrão CRITIC (Lesson 05) se aplica — os juízes precisam de ferramentas externas para verificação factual.
Versões de prompt não vinculadas aos rastros. Quando a produção regredir, você não conseguirá rastrear até o prompt que causou o problema.

Build It

O code/main.py implementa um coletor de rastros da stdlib + avaliador usando LLM como juiz:

Ingerir spans no formato GenAI.
Agrupar por sessão, marcar execuções com falha (violações de guardrails, avaliações de baixa confiança).
Um LLM como juiz roteirizado que pontua as respostas do agente em uma rubrica.
Um resumo em formato de dashboard: taxa de falhas, principais motivos de falhas, distribuição de pontuação de avaliação.

Execute:

python3 code/main.py

Saída: pontuações de avaliação por sessão e categorização de falhas correspondentes ao que o Langfuse/Phoenix/Opik exibiria.

Use It

Langfuse auto-hospedado ou na nuvem; conecte via OTel ou o SDK deles.
Arize Phoenix auto-hospedado; faça autoinstrumentação com OpenInference.
Comet Opik auto-hospedado ou na nuvem; ciclo de otimização automatizado.
Datadog LLM Observability para equipes mistas de ops+ML que já utilizam o Datadog.

Ship It

O outputs/skill-obs-platform-wiring.md escolhe uma plataforma e conecta rastros + avaliações + versões de prompts em um agente existente.

Exercícios

Exporte uma semana de rastros OTel para a nuvem do Langfuse (nível gratuito). Quais sessões falharam? Por quê?
Escreva uma rubrica de LLM como juiz para o seu domínio (correção factual, tom, aderência ao escopo). Teste em 50 rastros.
Compare o versionamento de prompts do Langfuse com o agrupamento de rastros do Phoenix. Qual deles indica o que quebrou mais rápido?
Leia a documentação de guardrails do Opik. Conecte um guardrail de redação de PII a uma das execuções do seu agente.
Faça um benchmark das três plataformas em seu corpus. Ignore os números publicados pelos fornecedores; meça os seus próprios.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Tracing	"Coletor de spans"	Ingerir spans de OTel / SDK; indexar por sessão
Prompt management	"CMS de prompt"	Prompts versionados vinculados a rastros
LLM-as-judge	"Avaliação automatizada"	Um LLM separado pontua a saída do agente em relação a uma rubrica
Session replay	"Reprodução de rastro"	Passo a passo de execuções anteriores para depuração
RAG relevancy	"Qualidade de recuperação"	O contexto recuperado corresponde à consulta
Trace clustering	"Agrupamento comportamental"	Agrupar execuções semelhantes para detecção de desvio (drift)
Guardrail enforcement	"Política no momento do log"	Verificações de PII/toxicidade/escopo no conteúdo registrado

Leitura Adicional

Langfuse docs — tracing, evals, prompt mgmt
Arize Phoenix docs — auto-instrumentation, drift
Comet Opik — optimization + guardrails
OpenTelemetry GenAI semantic conventions — the schema all three consume