Phase 17 - Lesson 13

LLM Observability Stack Selection

O mercado de observabilidade em 2026 se divide em duas categorias. Plataformas de desenvolvimento (LangSmith, Langfuse, Comet Opik) agrupam monitoramento com avaliações (evals), gerenciamento de prompts e replays de sessão. Ferramentas de gateway/instrumentação (Helicone, SigNoz, OpenLLMetry, Phoenix) focam em telemetria. O Langfuse possui núcleo com licença MIT com forte equilíbrio de código aberto (50K eventos/mês gratuitos na nuvem). O Phoenix é nativo de OpenTelemetry sob a licença Elastic License 2.0 — excelente para visualização de desvio (drift)/RAG, mas não é um backend persistente de produção. O Arize AX utiliza integração de cópia zero com Iceberg/Parquet, alegando ser 100x mais barato que a observabilidade monolítica. O LangSmith lidera para LangChain/LangGraph, custando $39/usuário/mês, com auto-hospedagem (self-host) disponível apenas na versão Enterprise. O Helicone é baseado em proxy com configuração de 15-30 minutos, oferecendo 100K requisições/mês gratuitas, mas com menos profundidade em rastreamentos (traces) de agentes. Padrão comum em produção: Gateway (Helicone/Portkey) + plataforma de avaliação (Phoenix/TruLens) integrados via OpenTelemetry.

Type: Learn Languages: Python (stdlib, toy trace-sampling simulator) Prerequisites: Phase 17 · 08 (Inference Metrics), Phase 14 (Agent Engineering) Time: ~60 minutos

Learning Objectives

Distinguir plataformas de desenvolvimento (pacote completo: avaliações + prompts + sessões) de ferramentas de gateway/telemetria (apenas rastreamentos + métricas).
Mapear seis ferramentas principais (Langfuse, LangSmith, Phoenix, Arize AX, Helicone, Opik) de acordo com suas licenças, preços e casos de uso ideais.
Explicar o padrão de integração via OpenTelemetry que permite combinar uma ferramenta de gateway com uma plataforma de avaliação separada.
Identificar o diferencial de custo em 2026 (abordagem de cópia zero do Arize AX vs ingestão monolítica) e indicar o multiplicador aproximado de 100x.

O Problema

Você colocou em produção uma funcionalidade baseada em LLM. Funciona. No entanto, você não tem visibilidade sobre falhas de prompt, loops de ferramentas (tool loops), regressões de latência, picos de custo ou taxa de acerto do cache de prompts. Ao pesquisar "LLM observability" no Google, encontra oito ferramentas que afirmam resolver o mesmo problema por três faixas de preço diferentes.

Elas não resolvem o mesmo problema. O LangSmith responde "por que esta execução do LangGraph falhou?". O Phoenix responde "meu pipeline de RAG está sofrendo desvios?". O Helicone responde "qual aplicativo está consumindo mais tokens?". O Langfuse responde "posso auto-hospedar toda a estrutura?". Ferramentas diferentes, públicos diferentes.

A escolha envolve quatro eixos: stack (LangChain? SDK puro? multi-vendor?), tolerância de licença (apenas MIT? Elastic serve? comercial é aceitável?), orçamento (camada gratuita?

00/mês?

000/mês?) e auto-hospedagem (obrigatório? desejável? nunca?).

O Conceito

Duas categorias

Plataformas de desenvolvimento agrupam observabilidade com avaliações, gerenciamento de prompts, versionamento de datasets e replays de sessão. Você executa experimentos, vê qual prompt funcionou e valida regressões em datasets comparando novos prompts contra versões anteriores de sucesso. Exemplos: LangSmith, Langfuse, Comet Opik.

Ferramentas de gateway/telemetria instrumentam chamadas de inferência — prompt, resposta, tokens, latência, modelo, custo. Exemplos: Helicone, SigNoz, OpenLLMetry, Phoenix. São minimalistas e podem ser combinadas com uma ferramenta de avaliação separada via OpenTelemetry.

Langfuse — Equilíbrio no Código Aberto

Núcleo licenciado sob Apache / MIT; auto-hospedagem facilitada via Docker.
Camada gratuita na nuvem: 50K eventos/mês. Pago: a partir de

9/mês para equipes.

Avaliações, gerenciamento de prompts, rastreamentos, datasets. Boa cobertura de todos os quatro principais recursos de plataformas de desenvolvimento.

Ponto forte: ideal para quem quer recursos semelhantes aos do LangSmith, mas precisa auto-hospedar ou manter-se em uma licença de código aberto (OSS).

Phoenix (Arize) — Foco em Telemetria, Nativo do OpenTelemetry

Licença Elastic License 2.0; auto-hospedagem trivial.
Excelente para RAG e visualização de desvios (drift). Gráficos de dispersão no espaço de embeddings inclusos nativamente.
Não foi projetado para ser um backend de produção persistente — focado prioritariamente em observabilidade em tempo de desenvolvimento.
Ponto forte: desenvolvimento de pipelines de RAG, depuração de desvios (drift), combina muito bem com um gateway separado para produção.

Arize AX — Escala Massiva

Comercial. Integração de cópia zero com data lakes via Iceberg/Parquet.
Promete ser ~100x mais barato do que a observabilidade monolítica (padrão Datadog) em escala. A lógica: você armazena os rastreamentos no seu próprio bucket S3 em formato Parquet e o Arize lê os dados diretamente.
Ponto forte: mais de 10 milhões de rastreamentos/dia, data lake já existente, necessidade de dashboards específicos para LLMs sem o preço do Datadog.

LangSmith — Foco em LangChain/LangGraph

Comercial, custando $39/usuário/mês. Auto-hospedagem disponível apenas em planos corporativos (Enterprise).
A melhor opção para as stacks LangChain e LangGraph. Se você não usa nenhuma das duas, perde apelo.
Ponto forte: equipes comprometidas com LangChain dispostas a pagar pela ferramenta oficial.

Helicone — Mínimo Viável Baseado em Proxy

Configuração de 15 a 30 minutos apenas redirecionando a variável OPENAI_API_BASE para o proxy do Helicone.
Licença MIT; 100K requisições/mês grátis, planos pagos a partir de

0/mês.

Inclui failover, cache e limites de taxa — atuando também como gateway.

Oferece menos profundidade em rastreamentos de agentes de múltiplos passos.

Ponto forte: início rápido, aplicativos com uma única stack, necessidade de gateway e observabilidade integrados.

Opik (Comet) — Plataforma de Desenvolvimento OSS

Licenciado sob Apache 2.0, totalmente de código aberto.
Conjunto de recursos similar ao Langfuse com a herança da plataforma Comet.
Ponto forte: equipes de ML que já utilizam a Comet e desejam observabilidade de LLMs no mesmo painel.

SigNoz — Monitoramento de Desempenho (APM) Completo com OpenTelemetry

Licenciado sob Apache 2.0. Gerencia APM tradicional e chamadas de LLM via OpenTelemetry.
Ponto forte: observabilidade unificada entre microsserviços e chamadas de LLM.

A integração: OpenTelemetry + Convenções Semânticas de GenAI

O OpenTelemetry publicou convenções semânticas de GenAI no final de 2025 (gen_ai.system, gen_ai.request.model, gen_ai.usage.input_tokens). Ferramentas que consomem OTel podem interoperar facilmente. O padrão que emerge em produção é:

Emitir dados OTel com convenções GenAI a partir de cada chamada de LLM.
Roteá-los para um gateway (Helicone / Portkey) para a monitoração do dia a dia.
Direcionar os dados simultaneamente para uma plataforma de avaliação (Phoenix / Langfuse) para monitorar regressões.
Arquivar no data lake (Iceberg) para análises de longo prazo via Arize AX ou DuckDB.

A armadilha: instrumentar na camada errada

Instrumentar dentro do seu framework de agentes (por exemplo, adicionando rastreamentos do LangSmith) acopla você a esse framework específico. Instrumentar na camada HTTP ou no SDK da OpenAI (via OpenLLMetry ou pelo próprio gateway) é uma abordagem portável.

Amostragem — você não pode reter tudo

Com mais de 1 milhão de requisições por dia, o custo de retenção total de rastreamentos supera o custo das chamadas de LLM. Use regras de amostragem (sampling): 100% para erros, 100% para casos de alto custo, 5% para sucessos de rotina. Mantenha os dados agregados sempre; guarde os logs brutos para a cauda longa.

Números que você deve lembrar

Camada gratuita do Langfuse na nuvem: 50K eventos/mês.
LangSmith: $39/usuário/mês.
Camada gratuita do Helicone: 100K requisições/mês.
Promessa do Arize AX: ~100x mais barato que soluções monolíticas em escala.
Convenções GenAI do OpenTelemetry: lançadas em 2025, amplamente adotadas em 2026.

Use na Prática

code/main.py simula um dia de 1 milhão de rastreamentos sob diferentes estratégias de retenção (100% de ingestão, amostragem simples, amostragem + erros). Apresenta o custo de armazenamento e a perda de dados em cada uma.

Envie para Produção

Esta lição produz outputs/skill-observability-stack.md. Com base na stack, escala, orçamento e licenças da organização, escolhe a(s) melhor(es) ferramenta(s).

Exercícios

Sua equipe usa LangChain e quer uma solução de observabilidade de código aberto auto-hospedada. Escolha entre Langfuse ou Opik e justifique sua escolha.
Em um volume de 5 milhões de rastreamentos/dia onde o orçamento do Datadog é de
50K/mês, calcule o ponto de equilíbrio financeiro para a adoção do Arize AX.
Projete um conjunto de atributos GenAI do OpenTelemetry que a diretriz de sua empresa deveria exigir em toda chamada de LLM.
Argumente se o Phoenix sozinho é suficiente para ambientes de produção. Quando ele deixa de ser o bastante?
O Helicone adiciona 20ms de sobrecarga de proxy. Com um TTFT de P99 de 300 ms, essa sobrecarga é aceitável? E se o SLA do produto for de 100 ms?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
OpenLLMetry	"OTel para LLMs"	Instrumentação de código aberto do OpenTelemetry dedicada a LLMs
GenAI conventions	"atributos OTel"	Nomes de atributos padrão da W3C/OTel para chamadas de LLM
LangSmith	"observabilidade LangChain"	Plataforma comercial totalmente integrada ao ecossistema LangChain
Langfuse	"LangSmith de código aberto"	Solução open-source (licença MIT) com recursos semelhantes
Phoenix	"ferramenta de dev da Arize"	Plataforma de desenvolvimento e avaliação nativa para OpenTelemetry
Arize AX	"observabilidade em escala"	Sistema comercial de observabilidade com cópia zero via Iceberg/Parquet
Helicone	"observabilidade por proxy"	Proxy HTTP que captura telemetria de LLMs e adiciona recursos de gateway
Opik	"Comet LLM"	Plataforma de desenvolvimento licenciada sob Apache 2.0 mantida pela Comet
Session replay	"reexecução de rastreamento"	Capacidade de reproduzir toda a sessão de um agente com chamadas de ferramentas
Eval	"teste offline"	Execução automatizada de um modelo/prompt candidato sobre um dataset rotulado