Phase 10 - Lesson 10

Evaluación: Benchmarks, Evals, LM Harness

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Ley de Goodhart: cuando una medida se convierte en un objetivo, deja de ser una buena medida. Todos los laboratorios de frontera manipulan los benchmarks. Las puntuaciones de MMLU suben mientras los modelos todavía no pueden contar con fiabilidad el número de letras "r" en "strawberry". La única evaluación que importa es TU evaluación -- en TU tarea, con TUS datos.

Tipo: Construcción Idiomas: Python Prerrequisitos: Fase 10, Lecciones 01-05 (LLMs desde Cero) Tiempo: ~90 minutos

Objetivos de Aprendizaje

Construir un arnés de evaluación personalizado que ejecute benchmarks de opción múltiple y respuesta abierta contra un modelo de lenguaje
Explicar por que los benchmarks estándar (MMLU, HumanEval) se saturan y no logran diferenciar a los modelos de frontera
Implementar evaluaciones específicas de tareas con métricas adecuadas: coincidencia exacta (exact match), F1, BLEU y puntuación basada en LLM como juez (LLM-as-judge)
Diseñar una suite de evaluación personalizada orientada a tu caso de uso específico en lugar de depender únicamente de las tablas de clasificación (leaderboards) públicas

El Problema

MMLU se publicó en 2020 con 15,908 preguntas en 57 materias. En tres años, los modelos de frontera lo saturaron. GPT-4 obtuvo un 86.4%. Claude 3 Opus obtuvo un 86.8%. Llama 3 405B obtuvo un 88.6%. La tabla de clasificación se comprimió en un rango de 3 puntos donde las diferencias son ruido estadístico, no diferencias reales de capacidad.

Mientras tanto, esos mismos modelos fallan en tareas que un niño de 10 años resuelve sin pensar. Claude 3.5 Sonnet, que obtiene un 88.7% en MMLU, inicialmente no podía contar las letras en "strawberry" -- una tarea que requiere cero conocimiento del mundo y cero razonamiento, solo iteración a nivel de caracteres. HumanEval evalúa la generación de código con 164 problemas. Los modelos obtienen más del 90% en esta prueba mientras siguen produciendo código que falla en casos extremos (edge cases) que cualquier desarrollor junior detectaría.

La brecha entre el rendimiento en benchmarks y la confiabilidad en el mundo real es el problema central de la evaluación de LLMs. Los benchmarks te dicen cómo funciona un modelo en ese benchmark en específico. No te dicen casi nada sobre cómo funcionará ese modelo en tu tarea específica, con tus datos específicos, bajo tus modos de falla específicos. Si estás construyendo un bot de soporte al cliente, MMLU es irrelevante. Si estás construyendo un asistente de código, HumanEval solo cubre la generación a nivel de función -- no dice nada sobre depuración, refactorización o explicación de código a través de múltiples archivos.

Necesitas evaluaciones personalizadas. No porque los benchmarks sean inútiles -- son útiles para una selección preliminar de modelos -- sino porque la evaluación final debe coincidir exactamente con tus condiciones de implementación.

El Concepto

El Panorama de la Evaluación

Existen tres categorías de evaluación, cada una con diferentes costos y calidad de señal.

Benchmarks son suites de pruebas estandarizadas. MMLU, HumanEval, SWE-bench, MATH, ARC, HellaSwag. Ejecutas un modelo contra el benchmark y obtienes una puntuación. La ventaja: todos usan la misma prueba, por lo que puedes comparar modelos. La desventaja: los modelos y los datos de entrenamiento contaminan cada vez más estos benchmarks. Los laboratorios entrenan con datos que incluyen preguntas de los benchmarks. Las puntuaciones suben. La capacidad real podría no hacerlo.

Evaluaciones personalizadas (custom evals) son suites de pruebas que construyes para tu caso de uso específico. Defines las entradas, las salidas esperadas y la función de puntuación. Un resumidor de documentos legales se evalúa con documentos legales. Un generador de SQL se evalúa con el esquema de tu base de datos. Crear estas suites es costoso, pero son la única evaluación que predice el rendimiento en producción.

Evaluaciones humanas utilizan anotadores pagados para juzgar las salidas de los modelos según criterios como utilidad, corrección, fluidez y seguridad. El estándar de oro para tareas abiertas donde la puntuación automatizada falla. Chatbot Arena ha recopilado más de 2 millones de votos de preferencia humana para más de 100 modelos. La desventaja: costo (entre $0.10 y

Tipo de evaluación	Costo por juicio	Acuerdo con humanos	Ideal para
Coincidencia exacta	~$0	100% (cuando aplica)	Salida estructurada, clasificación
BLEU/ROUGE	~$0	~60%	Traducción, resumen
LLM como juez	~$0.01	~80%	Generación abierta
Evaluación humana	$0.10- .00	N/A (es la verdad fundamental)	Tareas ambiguas de alto impacto

Término	Lo que la gente dice	Lo que realmente significa
MMLU	"El benchmark"	Massive Multitask Language Understanding -- 15,908 preguntas de opción múltiple en 57 materias, saturado por encima del 88% para 2025
HumanEval	"Evaluación de código"	164 problemas de completado de funciones en Python de OpenAI, solo evalúa la generación de funciones aisladas
SWE-bench	"Evaluación de codificación real"	2,294 problemas de GitHub de 12 repositorios de Python, mide la corrección de errores de extremo a extremo, incluyendo la generación de pruebas
Perplejidad	"Qué tan confundido está el modelo"	exp(-avg(log P(token_i dado el contexto))) -- menor significa que el modelo asigna una mayor probabilidad a los tokens reales
Clasificación ELO	"Clasificación de ajedrez para modelos"	Una calificación de habilidad relativa calculada a partir de registros pareados de victorias y derrotas, utilizada por Chatbot Arena para clasificar más de 100 modelos
LLM como juez	"Usar IA para calificar IA"	Un modelo fuerte califica las salidas de un modelo más débil frente a una rúbrica, ~80% de acuerdo con jueces humanos a un costo de ~$0.01 por juicio
Contaminación de datos	"El modelo vio el examen"	Los datos de entrenamiento incluyen preguntas de benchmarks, lo que infla las puntuaciones sin mejorar la capacidad real
Suite de evaluación	"Un grupo de pruebas"	Una colección con control de versiones de tripletas (entrada, salida_esperada, evaluador) que miden una capacidad específica
Tasa de aprobación	"Qué porcentaje hace bien"	Fracción de casos de evaluación que puntúan por encima de un umbral -- más accionable que la puntuación promedio porque mide la confiabilidad
Chatbot Arena	"Sitio web de clasificación de modelos"	Plataforma de LMSYS con más de 2 millones de votos de preferencia humana, que produce la tabla de clasificación de LLM más confiable a través de calificaciones ELO

Evaluación: Benchmarks, Evals, LM Harness

Objetivos de Aprendizaje

El Problema

El Concepto

El Panorama de la Evaluación

Por Qué se Rompen los Benchmarks

Perplejidad: Un Control Rápido de Integridad (Health Check)

LLM como Juez (LLM-as-Judge)

Clasificaciones ELO a Partir de Comparaciones Pareadas

Frameworks de Evaluación

Construcción de Evaluaciones Personalizadas

Construcción

Paso 1: Un Framework Mínimo de Evaluación

Paso 2: Funciones de Puntuación

Paso 3: Sistema de Calificación ELO

Paso 4: Cálculo de Perplejidad

Paso 5: Agregar Resultados

Paso 6: Ejecutar el Pipeline Completo

Paso 7: Torneo ELO

Paso 8: Comparación de Perplexidad

Uso

lm-evaluation-harness (EleutherAI)

promptfoo

RAGAS para evaluación de RAG

Conclusión

Ejercicios

Términos Clave

Lecturas Adicionales