Phase 14 - Lesson 24
Observabilidade de Agentes: Langfuse, Phoenix, Opik
Três plataformas de observabilidade de agentes de código aberto dominam 2026. Langfuse (MIT) — 6M+ instalações/mês, rastreamento + gerenciamento de prompts + avaliações + reprodução de sessão. Arize Phoenix (Elastic 2.0) — avaliações profundas específicas de agentes, relevância de RAG, autoinstrumentação OpenInference. Comet Opik (Apache 2.0) — otimização automatizada de prompts, guardrails, detecção de alucinação com LLM como juiz.
Tipo: Learn Linguagens: Python (stdlib) Pré-requisitos: Phase 14 · 23 (OTel GenAI) Tempo: ~45 minutos
Objetivos de Aprendizado
- Nomear as três principais plataformas de observabilidade de agentes de código aberto e suas licenças.
- Distinguir no que cada uma é mais forte: Langfuse (gerenciamento de prompts + sessões), Phoenix (RAG + autoinstrumentação), Opik (otimização + guardrails).
- Explicar por que 89% das organizações relatam ter observabilidade de agentes implementada até 2026.
- Implementar um pipeline stdlib trace-to-dashboard com avaliação usando LLM como juiz.
O Problema
O OTel GenAI (Lesson 23) fornece o esquema. Você ainda precisa da plataforma que ingere spans, executa avaliações, armazena versões de prompts e expõe regressões. Os três concorrentes enfatizam partes diferentes do ciclo de vida.
O Conceito
Langfuse (MIT)
- Mais de 6M de instalações de SDK/mês, mais de 19 mil estrelas no GitHub.
- Recursos: rastreamento, gerenciamento de prompts com versionamento + playground, avaliações (LLM como juiz, feedback do usuário, personalizadas), reprodução de sessões.
- Junho de 2025: módulos anteriormente comerciais (LLM como juiz, filas de anotação, experimentos de prompts, Playground) foram disponibilizados como código aberto sob a licença MIT.
- Mais forte em: observabilidade de ponta a ponta com um ciclo de gerenciamento de prompts integrado.
Arize Phoenix (Elastic License 2.0)
- Avaliação mais profunda específica para agentes: agrupamento de rastros (trace clustering), detecção de anomalias, relevância de recuperação para RAG.
- Autoinstrumentação nativa do OpenInference.
- Combina com o Arize AX gerenciado para produção.
- Sem versionamento de prompts — posicionado como uma ferramenta de desvio (drift)/regressão comportamental ao lado de plataformas mais amplas.
- Mais forte em: relevância de RAG, desvio comportamental, detecção de anomalias.
Comet Opik (Apache 2.0)
- Otimização automatizada de prompts através de experimentos A/B.
- Guardrails (redação de PII, restrições temáticas).
- Detecção de alucinação com LLM como juiz.
- Benchmark da própria medição da Comet: logs + avaliações no Opik em 23.44s vs Langfuse em 327.15s (uma diferença de ~14x) — considere os benchmarks dos fornecedores apenas como um indicativo de direção.
- Mais forte em: ciclo de otimização, experimentação automatizada, aplicação de guardrails.
Dados da indústria
De acordo com a Maxim (análise de campo de 2026): 89% das organizações já possuem observabilidade de agentes implementada; problemas de qualidade são o principal obstáculo para produção (32% dos entrevistados os citam).
Escolhendo uma
| Necessidade | Escolha |
|---|---|
| Tudo-em-um com gerenciamento de prompts | Langfuse |
| Avaliação profunda de RAG + desvio (drift) | Phoenix |
| Otimização automatizada + guardrails | Opik |
| Licença aberta, sem ELv2 | Langfuse (MIT) ou Opik (Apache 2.0) |
| Integração com Datadog / New Relic | Qualquer uma — todas exportam OTel |
Onde este padrão falha
- Falta de estratégia de avaliação. O rastreamento sem avaliação é apenas um registro de logs caro.
- Juiz LLM próprio sem fundamentação (grounding). O padrão CRITIC (Lesson 05) se aplica — os juízes precisam de ferramentas externas para verificação factual.
- Versões de prompt não vinculadas aos rastros. Quando a produção regredir, você não conseguirá rastrear até o prompt que causou o problema.
Build It
O code/main.py implementa um coletor de rastros da stdlib + avaliador usando LLM como juiz:
- Ingerir spans no formato GenAI.
- Agrupar por sessão, marcar execuções com falha (violações de guardrails, avaliações de baixa confiança).
- Um LLM como juiz roteirizado que pontua as respostas do agente em uma rubrica.
- Um resumo em formato de dashboard: taxa de falhas, principais motivos de falhas, distribuição de pontuação de avaliação.
Execute:
python3 code/main.py
Saída: pontuações de avaliação por sessão e categorização de falhas correspondentes ao que o Langfuse/Phoenix/Opik exibiria.
Use It
- Langfuse auto-hospedado ou na nuvem; conecte via OTel ou o SDK deles.
- Arize Phoenix auto-hospedado; faça autoinstrumentação com OpenInference.
- Comet Opik auto-hospedado ou na nuvem; ciclo de otimização automatizado.
- Datadog LLM Observability para equipes mistas de ops+ML que já utilizam o Datadog.
Ship It
O outputs/skill-obs-platform-wiring.md escolhe uma plataforma e conecta rastros + avaliações + versões de prompts em um agente existente.
Exercícios
- Exporte uma semana de rastros OTel para a nuvem do Langfuse (nível gratuito). Quais sessões falharam? Por quê?
- Escreva uma rubrica de LLM como juiz para o seu domínio (correção factual, tom, aderência ao escopo). Teste em 50 rastros.
- Compare o versionamento de prompts do Langfuse com o agrupamento de rastros do Phoenix. Qual deles indica o que quebrou mais rápido?
- Leia a documentação de guardrails do Opik. Conecte um guardrail de redação de PII a uma das execuções do seu agente.
- Faça um benchmark das três plataformas em seu corpus. Ignore os números publicados pelos fornecedores; meça os seus próprios.
Termos-Chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Tracing | "Coletor de spans" | Ingerir spans de OTel / SDK; indexar por sessão |
| Prompt management | "CMS de prompt" | Prompts versionados vinculados a rastros |
| LLM-as-judge | "Avaliação automatizada" | Um LLM separado pontua a saída do agente em relação a uma rubrica |
| Session replay | "Reprodução de rastro" | Passo a passo de execuções anteriores para depuração |
| RAG relevancy | "Qualidade de recuperação" | O contexto recuperado corresponde à consulta |
| Trace clustering | "Agrupamento comportamental" | Agrupar execuções semelhantes para detecção de desvio (drift) |
| Guardrail enforcement | "Política no momento do log" | Verificações de PII/toxicidade/escopo no conteúdo registrado |
Leitura Adicional
- Langfuse docs — tracing, evals, prompt mgmt
- Arize Phoenix docs — auto-instrumentation, drift
- Comet Opik — optimization + guardrails
- OpenTelemetry GenAI semantic conventions — the schema all three consume