Phase 17 - Lesson 13
LLM Observability Stack Selection
O mercado de observabilidade em 2026 se divide em duas categorias. Plataformas de desenvolvimento (LangSmith, Langfuse, Comet Opik) agrupam monitoramento com avaliações (evals), gerenciamento de prompts e replays de sessão. Ferramentas de gateway/instrumentação (Helicone, SigNoz, OpenLLMetry, Phoenix) focam em telemetria. O Langfuse possui núcleo com licença MIT com forte equilíbrio de código aberto (50K eventos/mês gratuitos na nuvem). O Phoenix é nativo de OpenTelemetry sob a licença Elastic License 2.0 — excelente para visualização de desvio (drift)/RAG, mas não é um backend persistente de produção. O Arize AX utiliza integração de cópia zero com Iceberg/Parquet, alegando ser 100x mais barato que a observabilidade monolítica. O LangSmith lidera para LangChain/LangGraph, custando $39/usuário/mês, com auto-hospedagem (self-host) disponível apenas na versão Enterprise. O Helicone é baseado em proxy com configuração de 15-30 minutos, oferecendo 100K requisições/mês gratuitas, mas com menos profundidade em rastreamentos (traces) de agentes. Padrão comum em produção: Gateway (Helicone/Portkey) + plataforma de avaliação (Phoenix/TruLens) integrados via OpenTelemetry.
Type: Learn Languages: Python (stdlib, toy trace-sampling simulator) Prerequisites: Phase 17 · 08 (Inference Metrics), Phase 14 (Agent Engineering) Time: ~60 minutos
Learning Objectives
- Distinguir plataformas de desenvolvimento (pacote completo: avaliações + prompts + sessões) de ferramentas de gateway/telemetria (apenas rastreamentos + métricas).
- Mapear seis ferramentas principais (Langfuse, LangSmith, Phoenix, Arize AX, Helicone, Opik) de acordo com suas licenças, preços e casos de uso ideais.
- Explicar o padrão de integração via OpenTelemetry que permite combinar uma ferramenta de gateway com uma plataforma de avaliação separada.
- Identificar o diferencial de custo em 2026 (abordagem de cópia zero do Arize AX vs ingestão monolítica) e indicar o multiplicador aproximado de 100x.
O Problema
Você colocou em produção uma funcionalidade baseada em LLM. Funciona. No entanto, você não tem visibilidade sobre falhas de prompt, loops de ferramentas (tool loops), regressões de latência, picos de custo ou taxa de acerto do cache de prompts. Ao pesquisar "LLM observability" no Google, encontra oito ferramentas que afirmam resolver o mesmo problema por três faixas de preço diferentes.
Elas não resolvem o mesmo problema. O LangSmith responde "por que esta execução do LangGraph falhou?". O Phoenix responde "meu pipeline de RAG está sofrendo desvios?". O Helicone responde "qual aplicativo está consumindo mais tokens?". O Langfuse responde "posso auto-hospedar toda a estrutura?". Ferramentas diferentes, públicos diferentes.
A escolha envolve quatro eixos: stack (LangChain? SDK puro? multi-vendor?), tolerância de licença (apenas MIT? Elastic serve? comercial é aceitável?), orçamento (camada gratuita?
O Conceito
Duas categorias
Plataformas de desenvolvimento agrupam observabilidade com avaliações, gerenciamento de prompts, versionamento de datasets e replays de sessão. Você executa experimentos, vê qual prompt funcionou e valida regressões em datasets comparando novos prompts contra versões anteriores de sucesso. Exemplos: LangSmith, Langfuse, Comet Opik.
Ferramentas de gateway/telemetria instrumentam chamadas de inferência — prompt, resposta, tokens, latência, modelo, custo. Exemplos: Helicone, SigNoz, OpenLLMetry, Phoenix. São minimalistas e podem ser combinadas com uma ferramenta de avaliação separada via OpenTelemetry.
Langfuse — Equilíbrio no Código Aberto
- Núcleo licenciado sob Apache / MIT; auto-hospedagem facilitada via Docker.
- Camada gratuita na nuvem: 50K eventos/mês. Pago: a partir de