Phase 11 - Lesson 10

Evaluación y Pruebas de Aplicaciones de LLM

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Nunca desplegarías una aplicación web sin pruebas. Nunca enviarías una migración de base de datos sin un plan de rollback. Pero en este momento, la mayoría de los equipos envían aplicaciones de LLM leyendo 10 salidas y diciendo "sí, se ve bien". Eso no es evaluación. Eso es esperanza. La esperanza no es una práctica de ingeniería. Cada cambio de prompt, cada cambio de modelo, cada ajuste de temperatura cambia la distribución de tus salidas de maneras que no puedes predecir leyendo un puñado de ejemplos. La evaluación es lo único que se interpone entre tu aplicación y la degradación silenciosa.

Type: Build Languages: Python Prerequisites: Phase 11 Lesson 01 (Prompt Engineering), Lesson 09 (Function Calling) Time: ~45 minutos Related: Phase 5 · 27 (LLM Evaluation — RAGAS, DeepEval, G-Eval) cubre los conceptos a nivel de framework (fidelidad basada en NLI, calibración de jueces, los cuatro de RAG). Phase 5 · 28 (Long-Context Evaluation) cubre NIAH / RULER / LongBench / MRCR para la regresión de la longitud del contexto. Esta lección se enfoca en lo específico de la ingeniería de LLM: integración de CI/CD, ejecuciones de evaluación limitadas por costo, dashboards de regresión.

Objetivos de Aprendizaje

Construir un conjunto de datos de evaluación con pares de entrada-salida, rúbricas y casos límite específicos para tu aplicación de LLM
Implementar puntuación automatizada mediante LLM como juez, coincidencia de expresiones regulares y comprobaciones de aserción deterministas
Configurar pruebas de regresión que detecten la degradación de la calidad cuando cambian los prompts, modelos o parámetros
Diseñar métricas de evaluación que capturen lo que importa para tu caso de uso (corrección, tono, cumplimiento de formato, latencia)

El Problema

Creas un chatbot RAG para soporte al cliente. Funciona de maravilla en tus demostraciones. Lo lanzas. Dos semanas después, alguien cambia el prompt del sistema para reducir las alucinaciones. El cambio funciona: la tasa de alucinaciones disminuye. Pero la completitud de las respuestas también cae un 34% porque el modelo ahora se niega a responder a cualquier cosa de la que no esté 100% seguro.

Nadie se dio cuenta durante 11 días. Los ingresos del canal de autoservicio cayeron. Los tickets de soporte aumentaron.

Este es el resultado por defecto cuando evalúas por intuición (vibes). Revisas unos pocos ejemplos, se ven bien, haces el merge. Pero las salidas de los LLM son estocásticas. Un prompt que funciona en 5 casos de prueba puede fallar en el 6º. Un modelo con una puntuación del 92% en tus benchmarks puede obtener un 71% en los casos límite con los que realmente se topan tus usuarios.

La solución no es "ser más cuidadoso". La solución es la evaluación automatizada que se ejecuta con cada cambio, puntúa las salidas frente a rúbricas, calcula intervalos de confianza y bloquea el despliegue cuando la calidad regresa.

La evaluación no es algo opcional. Es el mínimo necesario (table stakes). Lanzar al mercado sin evaluaciones es desplegar a ciegas.

El Concepto

La Taxonomía de Evaluación

Existen tres categorías de evaluación de LLMs. Cada una tiene un papel. Ninguna es suficiente por sí sola.

graph TD
    E[Evaluación de LLMs] --> A[Métricas Automatizadas]
    E --> L[LLM como Juez]
    E --> H[Evaluación Humana]

    A --> A1[BLEU]
    A --> A2[ROUGE]
    A --> A3[BERTScore]
    A --> A4[Exact Match]

    L --> L1[Calificador Único]
    L --> L2[Comparación por Pares]
    L --> L3[El mejor de N]

    H --> H1[Revisión de Expertos]
    H --> H2[Feedback del Usuario]
    H --> H3[Pruebas A/B]

    style A fill:#e8e8e8,stroke:#333
    style L fill:#e8e8e8,stroke:#333
    style H fill:#e8e8e8,stroke:#333

Las métricas automatizadas comparan el texto de salida con las respuestas de referencia mediante algoritmos. BLEU mide la superposición de n-gramas (originalmente para traducción automática). ROUGE mide la recuperación (recall) de n-gramas de referencia (originalmente para resumen). BERTScore utiliza embeddings de BERT para medir la similitud semántica. Son rápidas y económicas: puedes evaluar 10,000 salidas en segundos. Pero pierden los matices. Dos respuestas pueden tener cero coincidencia de palabras y ser correctas. Una respuesta puede tener un ROUGE alto y estar completamente equivocada en el contexto.

LLM como juez utiliza un modelo robusto (GPT-5, Claude Opus 4.7, Gemini 3 Pro) para calificar las salidas frente a una rúbrica. Esto captura la calidad semántica (relevancia, corrección, utilidad, seguridad) que las métricas de cadenas de texto pasan por alto. Cuesta dinero (~$8 por cada 1,000 llamadas de juez con GPT-5-mini, ~

Método	Velocidad	Costo por 1K eval	Correlación con humanos	Mejor para
BLEU/ROUGE	<1 seg	$0	40-60%	Baselines de traducción y resumen
BERTScore	~30 seg	$0	55-70%	Filtrado de similitud semántica
LLM como juez (GPT-5-mini)	~3 min	~$8	82-86%	Juez por defecto de CI; barato, rápido, calibrado
LLM como juez (Claude Opus 4.7)	~5 min	~ 5	85-88%	Calificaciones críticas, seguridad, negativas a responder
LLM como juez (Gemini 3 Flash)	~2 min	~$3	80-84%	Juez de mayor rendimiento; para más de 1M de evals
RAGAS (fidelidad NLI + juez)	~5 min	~ 2	85%	Métricas específicas de RAG (ver Phase 5 · 27)
DeepEval (G-Eval + Pytest)	~4 min	depende del juez	80-88%	Nativo de CI, filtros de regresión por PR
Experto humano	~2 horas	~$500	100% (por definición)	Calibración, casos límite, políticas

Casos de prueba	Precisión observada	Ancho del IC del 95%	¿Puede detectar una regresión del 5%?
50	90%	19 puntos	No
100	90%	12 puntos	Apenas
200	90%	9 puntos	Sí
500	90%	5 points	Con confianza
1000	90%	3 points	Con precisión

Tamaño de eval	Juez GPT-5-mini	Juez Claude Opus 4.7	Juez Gemini 3 Flash	Tiempo
100 casos x 4 criterios	~	~$6	~$0.40	~2 min
200 casos x 4 criterios	~$4	~ 2	~$0.80	~4 min
500 casos x 4 criterios	~ 0	~$30	~	~10 min
1000 casos x 4 criterios	~ 0	~$60	~$4	~20 min

Herramienta	Qué hace	Precio
promptfoo	Framework de evaluación de código abierto, config YAML, LLM como juez, integración CI	Gratis (OSS)
Braintrust	Plataforma de evaluación con puntuación, experimentos, datasets, logging	Capa gratuita, luego basado en uso
LangSmith	Plataforma de eval/observabilidad de LangChain, tracing, datasets, anotación	Capa gratis, $39/mes+
DeepEval	Framework de evaluación en Python, más de 14 métricas, integración con Pytest	Gratis (OSS)
Arize Phoenix	Observabilidad y evaluaciones de código abierto, tracing, puntuación a nivel de span	Gratis (OSS)

Término	Lo que la gente dice	Lo que realmente significa
Evaluación (Eval)	"Pruebas"	Calificación sistemática de las salidas de un LLM frente a criterios definidos utilizando métricas automatizadas, jueces LLM o revisión humana
LLM como juez	"Calificación de IA"	El uso de un modelo robusto (GPT-4o, Claude) para calificar las salidas según una rúbrica; se correlaciona un 80-85% con el juicio humano
Rúbrica	"Guia de pontuação"	Descrições ancladas para cada nível de pontuação (1-5) que reduzem a varianza del juez ao definir exatamente qué significa cada pontuação
ROUGE-L	"Coincidencia de texto"	Métrica basada en la subsecuencia común más larga (LCS) que mide qué parte de la referencia aparece en la salida (orientada a recall)
Intervalo de confianza	"Márgenes de error"	Un rango alrededor de tu puntuación medida que indica cuánta incertidumbre queda; es más amplio con menos casos de prueba
Pruebas de regresión	"Antes/después"	Ejecutar la misma suite de evaluación en versiones de prompt antiguas y nuevas para detectar la degradación de la calidad antes del despliegue
Conjunto de pruebas de oro	"Evals principales"	Pares curados de entrada-salida que representan tus casos de uso más importantes; cada cambio debe pasar por aquí
Comparación por pares	"A frente a B"	Mostrar a un juez dos salidas y preguntar cuál es mejor; elimina los problemas de calibración de escalas
Bootstrap	"Remuestreo"	Estimación de intervalos de confianza mediante el muestreo repetido de tus puntuaciones con reemplazo; funciona con cualquier distribución
Intervalo de Wilson	"IC de proporción"	Un intervalo de confianza para las tasas de éxito/fracaso que funciona correctamente incluso con tamaños de muestra pequeños o proporciones extremas

Evaluación y Pruebas de Aplicaciones de LLM

Objetivos de Aprendizaje

El Problema

El Concepto

La Taxonomía de Evaluación

LLM como Juez: El Caballo de Batalla

Diseño de Rúbricas

El Pipeline de Evaluación

Datasets de Evaluación: La Fundación

Tamaño de la Muestra y Confianza

Pruebas de Regresión

Costo de las Evaluaciones

Antipatrones

Herramientas Reales

Constrúyelo

Paso 1: Definir las Estruturas de Datos de Evaluación

Paso 2: Construir el Calificador LLM como Juez

Paso 3: Construir Métricas Automatizadas

Paso 4: Construir la Calculadora de Intervalo de Confianza

Paso 5: Construir el Ejecutor de Evals y el Reporte de Comparación

Paso 6: Ejecutar la Demostración

Úsalo

Integración con promptfoo

Integración con DeepEval

Patrón de Integración CI/CD

Envíalo (Ship It)

Ejercicios

Términos Clave

Lecturas Adicionales