Phase 14 - Lesson 24

Observabilidad de Agentes: Langfuse, Phoenix, Opik

Tres plataformas de observabilidad de agentes de código abierto dominan 2026. Langfuse (MIT) — 6M+ instalaciones/mes, rastreo + gestión de prompts + evaluaciones + reproducción de sesiones. Arize Phoenix (Elastic 2.0) — evaluaciones profundas específicas de agentes, relevancia de RAG, autoinstrumentación de OpenInference. Comet Opik (Apache 2.0) — optimización automatizada de prompts, guardrails, detección de alucinaciones con LLM como juez.

Tipo: Learn Lenguajes: Python (stdlib) Prerrequisitos: Phase 14 · 23 (OTel GenAI) Tiempo: ~45 minutos

Objetivos de Aprendizaje

  • Nombrar las tres principales plataformas de observabilidad de agentes de código abierto y sus licencias.
  • Distinguir en qué es más fuerte cada una: Langfuse (gestión de prompts + sesiones), Phoenix (RAG + autoinstrumentación), Opik (optimización + guardrails).
  • Explicar por qué el 89% de las organizaciones reportan tener observabilidad de agentes implementada para 2026.
  • Implementar un pipeline stdlib trace-to-dashboard con evaluación usando LLM como juez.

El Problema

OTel GenAI (Lesson 23) proporciona el esquema. Aún se necesita la plataforma que ingiera spans, ejecute evaluaciones, almacene versiones de prompts y exponga regresiones. Los tres contendientes enfatizan diferentes partes del ciclo de vida.

El Concepto

Langfuse (MIT)

  • Más de 6M de instalaciones de SDK al mes, más de 19 mil estrellas en GitHub.
  • Características: rastreo, gestión de prompts con versiones + playground, evaluaciones (LLM como juez, comentarios de usuarios, personalizadas), reproducción de sesiones.
  • Junio de 2025: los módulos anteriormente comerciales (LLM como juez, colas de anotación, experimentos con prompts, Playground) se liberaron como código abierto bajo la licencia MIT.
  • Más fuerte en: observabilidad de extremo a extremo con un ciclo integrado de gestión de prompts.

Arize Phoenix (Elastic License 2.0)

  • Evaluación más profunda específica para agentes: agrupación de rastros (trace clustering), detección de anomalías, relevancia de recuperación para RAG.
  • Autoinstrumentación nativa de OpenInference.
  • Se combina con Arize AX gestionado para producción.
  • Sin versionamiento de prompts — posicionado como una herramienta de desvío (drift)/regresión del comportamiento junto a plataformas más amplias.
  • Más fuerte en: relevancia de RAG, desvío del comportamiento, detección de anomalías.

Comet Opik (Apache 2.0)

  • Optimización automatizada de prompts a través de experimentos A/B.
  • Guardrails (redacción de PII, restricciones temáticas).
  • Detección de alucinaciones con LLM como juez.
  • Benchmark de la propia medición de Comet: registros + evaluaciones en Opik en 23.44s frente a Langfuse en 327.15s (una diferencia de ~14x) — tome los benchmarks de los proveedores solo como una referencia de dirección.
  • Más fuerte en: ciclo de optimización, experimentación automatizada, aplicación de guardrails.

Datos de la industria

Según Maxim (análisis de campo de 2026): el 89% de las organizaciones ya cuentan con observabilidad de agentes implementada; los problemas de calidad son la principal barrera en producción (el 32% de los encuestados los menciona).

Eligiendo una

Necesidad Elección
Todo en uno con gestión de prompts Langfuse
Evaluación profunda de RAG + desvío (drift) Phoenix
Optimización automatizada + guardrails Opik
Licencia abierta, sin ELv2 Langfuse (MIT) u Opik (Apache 2.0)
Integración con Datadog / New Relic Cualquiera — todas exportan OTel

Dónde falla este patrón

  • Falta de estrategia de evaluación. El rastreo sin evaluación es solo un registro de logs costoso.
  • Juez LLM propio sin fundamentación (grounding). Se aplica el patrón CRITIC (Lesson 05): los jueces necesitan herramientas externas para la verificación factual.
  • Versiones de prompts no vinculadas a los rastros. Cuando la producción sufre una regresión, no es posible rastrear el problema hasta el prompt que lo causó.

Build It

El code/main.py implementa un colector de rastros de stdlib + evaluador con LLM como juez:

  • Ingerir spans con formato GenAI.
  • Agrupar por sesión, etiquetar ejecuciones fallidas (violaciones de guardrails, evaluaciones de baja confianza).
  • Un LLM como juez programado que califica las respuestas del agente en base a una rúbrica.
  • Un resumen estilo dashboard: tasa de fallas, principales razones de falla, distribución de puntajes de evaluación.

Ejecute:

python3 code/main.py

Salida: puntajes de evaluación por sesión y categorización de fallas que coinciden con lo que mostrarían Langfuse/Phoenix/Opik.

Use It

  • Langfuse autohospedado o en la nube; conéctelo a través de OTel o su SDK.
  • Arize Phoenix autohospedado; autoinstrumente con OpenInference.
  • Comet Opik autohospedado o en la nube; ciclo de optimización automatizado.
  • Datadog LLM Observability para equipos mixtos de ops+ML que ya utilizan Datadog.

Ship It

El outputs/skill-obs-platform-wiring.md elige una plataforma y conecta rastros + evaluaciones + versiones de prompts en un agente existente.

Ejercicios

  1. Exporte una semana de rastros de OTel a la nube de Langfuse (nivel gratuito). ¿Qué sesiones fallaron? ¿Por qué?
  2. Escriba una rúbrica de LLM como juez para su dominio (corrección factual, tono, adherencia al alcance). Pruébela en 50 rastros.
  3. Compare el versionamiento de prompts de Langfuse con la agrupación de rastros de Phoenix. ¿Cuál le indica más rápido qué se rompió?
  4. Lea la documentación de guardrails de Opik. Conecte un guardrail de redacción de PII a una de las ejecuciones de su agente.
  5. Realice un benchmark de las tres en su corpus. Ignore los números publicados por los proveedores; mida los suyos propios.

Términos Clave

Término Lo que dice la gente Lo que realmente significa
Tracing "Colector de spans" Ingerir spans de OTel / SDK; indexar por sesión
Prompt management "CMS de prompt" Prompts versionados vinculados a rastros
LLM-as-judge "Evaluación automatizada" Un LLM separado califica la salida del agente según una rúbrica
Session replay "Reproducción de rastro" Paso a paso a través de ejecuciones pasadas para depuración
RAG relevancy "Calidad de recuperación" ¿Coincide el contexto recuperado con la consulta?
Trace clustering "Agrupación de comportamiento" Agrupar ejecuciones similares para la detección de desvíos (drift)
Guardrail enforcement "Política al registrar logs" Verificaciones de PII/toxicidad/alcance en el contenido registrado

Lectura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).