Phase 17 - Lesson 13
LLM Observability Stack Selection
El mercado de observabilidad en 2026 se divide en dos categorías. Las plataformas de desarrollo (LangSmith, Langfuse, Comet Opik) agrupan el monitoreo con evaluaciones (evals), administración de prompts y replays de sesión. Las herramientas de gateway/instrumentación (Helicone, SigNoz, OpenLLMetry, Phoenix) se enfocan en telemetría. Langfuse posee un núcleo con licencia MIT y un sólido equilibrio de código abierto (50K eventos/mes gratis en la nube). Phoenix es nativo de OpenTelemetry bajo Elastic License 2.0 — excelente para visualización de desvíos (drift)/RAG, pero no como backend persistente de producción. Arize AX utiliza integración de copia cero con Iceberg/Parquet, afirmando ser 100x más barato que la observabilidad monolítica. LangSmith lidera para LangChain/LangGraph, costando $39/usuario/mes, con auto-hospedaje disponible solo en la versión Enterprise. Helicone se basa en proxy con configuración de 15-30 minutos, ofreciendo 100K solicitudes/mes gratis, pero con menor profundidad en trazas (traces) de agentes. Patrón común en producción: Gateway (Helicone/Portkey) + plataforma de evaluación (Phoenix/TruLens) integrados a través de OpenTelemetry.
Type: Learn Languages: Python (stdlib, toy trace-sampling simulator) Prerequisites: Phase 17 · 08 (Inference Metrics), Phase 14 (Agent Engineering) Time: ~60 minutos
Learning Objectives
- Distinguir plataformas de desarrollo (paquete completo: evaluaciones + prompts + sesiones) de herramientas de gateway/telemetría (solo trazas + métricas).
- Mapear seis herramientas principales (Langfuse, LangSmith, Phoenix, Arize AX, Helicone, Opik) de acuerdo con sus licencias, precios y casos de uso ideales.
- Explicar el patrón de integración mediante OpenTelemetry que permite combinar una herramienta de gateway con una plataforma de evaluación independiente.
- Identificar el elemento diferenciador de costo en 2026 (enfoque de copia cero de Arize AX vs ingesta monolítica) e indicar el multiplicador aproximado de 100x.
El Problema
Has implementado una funcionalidad basada en LLM. Funciona. No obstante, no tienes visibilidad sobre fallas de prompt, loops de herramientas (tool loops), regresiones de latencia, picos de costo o tasa de acierto en el caché de prompts. Al buscar "LLM observability" en Google, te encuentras con ocho herramientas que afirman resolver el mismo problema con tres rangos de precios diferentes.
No resuelven el mismo problema. LangSmith responde "¿por qué falló esta ejecución de LangGraph?". Phoenix responde "¿mi pipeline de RAG está sufriendo desvíos?". Helicone responde "¿qué aplicación está consumiendo tokens?". Langfuse responde "¿puedo auto-hospedar toda la estructura?". Herramientas diferentes, públicos diferentes.
La elección involucra cuatro ejes: stack (¿LangChain? ¿SDK puro? ¿multi-vendor?), tolerancia de licencia (¿solo MIT? ¿sirve Elastic? ¿comercial está bien?), presupuesto (¿capa gratuita? ¿
El Concepto
Dos categorías
Plataformas de desarrollo agrupan observabilidad con evaluaciones, administración de prompts, versionamiento de datasets y replays de sesión. Ejecutas experimentos, ves qué prompt funcionó y validas regresiones en datasets comparando nuevos prompts contra versiones anteriores exitosas. Ejemplos: LangSmith, Langfuse, Comet Opik.
Herramientas de gateway/telemetría instrumentan llamadas de inferencia — prompt, respuesta, tokens, latencia, modelo, costo. Ejemplos: Helicone, SigNoz, OpenLLMetry, Phoenix. Son minimalistas y se pueden combinar con una herramienta de evaluación independiente a través de OpenTelemetry.
Langfuse — Equilibrio de Código Abierto
- Núcleo licenciado bajo Apache / MIT; auto-hospedaje sencillo a través de Docker.
- Capa gratuita en la nube: 50K eventos/mes. Pago: a partir de