Phase 14 - Lesson 24
Observabilidad de Agentes: Langfuse, Phoenix, Opik
Tres plataformas de observabilidad de agentes de código abierto dominan 2026. Langfuse (MIT) — 6M+ instalaciones/mes, rastreo + gestión de prompts + evaluaciones + reproducción de sesiones. Arize Phoenix (Elastic 2.0) — evaluaciones profundas específicas de agentes, relevancia de RAG, autoinstrumentación de OpenInference. Comet Opik (Apache 2.0) — optimización automatizada de prompts, guardrails, detección de alucinaciones con LLM como juez.
Tipo: Learn Lenguajes: Python (stdlib) Prerrequisitos: Phase 14 · 23 (OTel GenAI) Tiempo: ~45 minutos
Objetivos de Aprendizaje
- Nombrar las tres principales plataformas de observabilidad de agentes de código abierto y sus licencias.
- Distinguir en qué es más fuerte cada una: Langfuse (gestión de prompts + sesiones), Phoenix (RAG + autoinstrumentación), Opik (optimización + guardrails).
- Explicar por qué el 89% de las organizaciones reportan tener observabilidad de agentes implementada para 2026.
- Implementar un pipeline stdlib trace-to-dashboard con evaluación usando LLM como juez.
El Problema
OTel GenAI (Lesson 23) proporciona el esquema. Aún se necesita la plataforma que ingiera spans, ejecute evaluaciones, almacene versiones de prompts y exponga regresiones. Los tres contendientes enfatizan diferentes partes del ciclo de vida.
El Concepto
Langfuse (MIT)
- Más de 6M de instalaciones de SDK al mes, más de 19 mil estrellas en GitHub.
- Características: rastreo, gestión de prompts con versiones + playground, evaluaciones (LLM como juez, comentarios de usuarios, personalizadas), reproducción de sesiones.
- Junio de 2025: los módulos anteriormente comerciales (LLM como juez, colas de anotación, experimentos con prompts, Playground) se liberaron como código abierto bajo la licencia MIT.
- Más fuerte en: observabilidad de extremo a extremo con un ciclo integrado de gestión de prompts.
Arize Phoenix (Elastic License 2.0)
- Evaluación más profunda específica para agentes: agrupación de rastros (trace clustering), detección de anomalías, relevancia de recuperación para RAG.
- Autoinstrumentación nativa de OpenInference.
- Se combina con Arize AX gestionado para producción.
- Sin versionamiento de prompts — posicionado como una herramienta de desvío (drift)/regresión del comportamiento junto a plataformas más amplias.
- Más fuerte en: relevancia de RAG, desvío del comportamiento, detección de anomalías.
Comet Opik (Apache 2.0)
- Optimización automatizada de prompts a través de experimentos A/B.
- Guardrails (redacción de PII, restricciones temáticas).
- Detección de alucinaciones con LLM como juez.
- Benchmark de la propia medición de Comet: registros + evaluaciones en Opik en 23.44s frente a Langfuse en 327.15s (una diferencia de ~14x) — tome los benchmarks de los proveedores solo como una referencia de dirección.
- Más fuerte en: ciclo de optimización, experimentación automatizada, aplicación de guardrails.
Datos de la industria
Según Maxim (análisis de campo de 2026): el 89% de las organizaciones ya cuentan con observabilidad de agentes implementada; los problemas de calidad son la principal barrera en producción (el 32% de los encuestados los menciona).
Eligiendo una
| Necesidad | Elección |
|---|---|
| Todo en uno con gestión de prompts | Langfuse |
| Evaluación profunda de RAG + desvío (drift) | Phoenix |
| Optimización automatizada + guardrails | Opik |
| Licencia abierta, sin ELv2 | Langfuse (MIT) u Opik (Apache 2.0) |
| Integración con Datadog / New Relic | Cualquiera — todas exportan OTel |
Dónde falla este patrón
- Falta de estrategia de evaluación. El rastreo sin evaluación es solo un registro de logs costoso.
- Juez LLM propio sin fundamentación (grounding). Se aplica el patrón CRITIC (Lesson 05): los jueces necesitan herramientas externas para la verificación factual.
- Versiones de prompts no vinculadas a los rastros. Cuando la producción sufre una regresión, no es posible rastrear el problema hasta el prompt que lo causó.
Build It
El code/main.py implementa un colector de rastros de stdlib + evaluador con LLM como juez:
- Ingerir spans con formato GenAI.
- Agrupar por sesión, etiquetar ejecuciones fallidas (violaciones de guardrails, evaluaciones de baja confianza).
- Un LLM como juez programado que califica las respuestas del agente en base a una rúbrica.
- Un resumen estilo dashboard: tasa de fallas, principales razones de falla, distribución de puntajes de evaluación.
Ejecute:
python3 code/main.py
Salida: puntajes de evaluación por sesión y categorización de fallas que coinciden con lo que mostrarían Langfuse/Phoenix/Opik.
Use It
- Langfuse autohospedado o en la nube; conéctelo a través de OTel o su SDK.
- Arize Phoenix autohospedado; autoinstrumente con OpenInference.
- Comet Opik autohospedado o en la nube; ciclo de optimización automatizado.
- Datadog LLM Observability para equipos mixtos de ops+ML que ya utilizan Datadog.
Ship It
El outputs/skill-obs-platform-wiring.md elige una plataforma y conecta rastros + evaluaciones + versiones de prompts en un agente existente.
Ejercicios
- Exporte una semana de rastros de OTel a la nube de Langfuse (nivel gratuito). ¿Qué sesiones fallaron? ¿Por qué?
- Escriba una rúbrica de LLM como juez para su dominio (corrección factual, tono, adherencia al alcance). Pruébela en 50 rastros.
- Compare el versionamiento de prompts de Langfuse con la agrupación de rastros de Phoenix. ¿Cuál le indica más rápido qué se rompió?
- Lea la documentación de guardrails de Opik. Conecte un guardrail de redacción de PII a una de las ejecuciones de su agente.
- Realice un benchmark de las tres en su corpus. Ignore los números publicados por los proveedores; mida los suyos propios.
Términos Clave
| Término | Lo que dice la gente | Lo que realmente significa |
|---|---|---|
| Tracing | "Colector de spans" | Ingerir spans de OTel / SDK; indexar por sesión |
| Prompt management | "CMS de prompt" | Prompts versionados vinculados a rastros |
| LLM-as-judge | "Evaluación automatizada" | Un LLM separado califica la salida del agente según una rúbrica |
| Session replay | "Reproducción de rastro" | Paso a paso a través de ejecuciones pasadas para depuración |
| RAG relevancy | "Calidad de recuperación" | ¿Coincide el contexto recuperado con la consulta? |
| Trace clustering | "Agrupación de comportamiento" | Agrupar ejecuciones similares para la detección de desvíos (drift) |
| Guardrail enforcement | "Política al registrar logs" | Verificaciones de PII/toxicidad/alcance en el contenido registrado |
Lectura Adicional
- Langfuse docs — tracing, evals, prompt mgmt
- Arize Phoenix docs — auto-instrumentation, drift
- Comet Opik — optimization + guardrails
- OpenTelemetry GenAI semantic conventions — the schema all three consume