Phase 17 - Lesson 21

Pruebas A/B para Funcionalidades de LLM — GrowthBook, Statsig y el Problema del Vibe Check

Las pruebas A/B tradicionales no fueron concebidas para LLMs no deterministas. La distinción crítica: las evaluaciones (evals) responden a "¿puede el modelo realizar la tarea?", mientras que las pruebas A/B responden a "¿les importa a los usuarios?". Ambas son necesarias; la era de lanzar funcionalidades basándose solo en el "vibe check" (intuición) ha terminado. Qué probar en 2026: ingeniería de prompts (redacción), selección de modelos (GPT-4 vs GPT-3.5 vs OSS; precisión vs costo vs latencia) y parámetros de generación (temperatura, top-p). Casos reales: una variante de modelo de recompensa (reward-model) para chatbot generó +70% de duración de conversación y +30% de retención; experimentos de líneas de asunto con IA de Nextdoor entregaron +1% de CTR tras el refinamiento de la función de recompensa; Khan Academy (con Khanmigo) iteró sobre el eje latencia vs precisión matemática. División de plataformas: Statsig (adquirida por OpenAI por
.1B en septiembre de 2025) — pruebas secuenciales, CUPED, plataforma integrada (all-in-one). GrowthBook — código abierto, nativo de data warehouse, motores Bayesiano + Frecuentista + Secuencial, CUPED, detección de SRM y correcciones de Benjamini-Hochberg + Bonferroni. La elección depende de su preferencia por consultas SQL en data warehouse y de si el hecho de que la plataforma sea "propiedad de OpenAI" es relevante para su organización.

Type: Learn Languages: Python (stdlib, simulador simple de prueba secuencial) Prerequisites: Phase 17 · 13 (Observability), Phase 17 · 20 (Progressive Deployment) Time: ~60 minutos

Objetivos de Aprendizaje

Diferenciar las evaluaciones (evals - "¿puede el modelo realizar la tarea?") de las pruebas A/B ("¿les importa a los usuarios?").
Enumerar tres ejes evaluables (prompt, modelo y parámetros) y seleccionar la métrica para cada uno.
Explicar CUPED, las pruebas secuenciales y las correcciones de comparaciones múltiples de Benjamini-Hochberg.
Elegir entre Statsig o GrowthBook según su modelo de datos SQL y su postura sobre adquisiciones corporativas.

El Problema

Ajustó manualmente un prompt de sistema. Se siente mejor. Lo lanza. La conversión varía dentro del margen de ruido. Culpa a la métrica. O lanzó un nuevo modelo y la conversión no se movió — ¿el modelo se degradó o el cambio fue demasiado sutil para ser detectado? No lo sabe, porque realizó el lanzamiento sin una prueba A/B.

Los evals responden si el modelo puede realizar una tarea en un conjunto etiquetado. No responden si los usuarios prefieren esa respuesta. Solo un experimento online controlado responde a eso, y solo si tiene suficiente poder estadístico, controla el no determinismo y corrige comparaciones múltiples.

El Concepto

Evals vs Pruebas A/B

Evals — offline, conjunto etiquetado, evaluador (rúbrica, LLM-as-judge o humano). Responde: "¿La respuesta es correcta / útil / segura en esta distribución fija?"

Prueba A/B — online, usuarios reales, aleatorizada. Responde: "¿La nueva variante mueve la métrica a nivel de usuario que realmente importa?"

Ambos son obligatorios. Los evals previenen regresiones antes de la exposición; las pruebas A/B confirman el impacto en el producto después.

Qué probar

Ingeniería de prompts — redacción, estructura del prompt de sistema, ejemplos. Métrica: éxito de la tarea, retención de usuarios, costo por solicitud.
Selección de modelos — GPT-4 vs GPT-3.5-Turbo vs Llama-OSS. Métrica: precisión (tarea) + costo por solicitud + latencia P99. Enfoque multiobjetivo.
Parámetros de generación — temperatura, top-p, max_tokens. Métrica: específica de la tarea (diversidad de salida vs determinismo).

CUPED — reducción de varianza

Controlled-experiments Using Pre-Experiment Data (Experimentos Controlados Utilizando Datos Pre-Experimento). Elimina la varianza del período previo al experimento antes de comparar el posterior. Reducción típica de varianza: 30-70%. El tamaño efectivo de la muestra aumenta de forma gratuita.

Implementación: tanto Statsig como GrowthBook lo implementan.

Pruebas secuenciales

La prueba A/B clásica asume un tamaño de muestra fijo. Las pruebas secuenciales ("peek-and-decide") controlan la tasa de falsos positivos bajo observaciones repetidas (peeking). Los procedimientos secuenciales siempre válidos (mSPRT, secuencias de confianza de Howard) permiten detener el proceso antes de tiempo al identificar ganadores claros.

Correcciones de comparaciones múltiples

Ejecutar 20 pruebas A/B con un 95% de confianza produce un falso positivo puramente por azar. La corrección de Bonferroni reduce el umbral alfa (α) por prueba; la de Benjamini-Hochberg controla la tasa de falso descubrimiento (FDR). GrowthBook implementa ambas.

SRM — desalineación en la proporción muestral

El hash de asignación distribuye a los usuarios aleatoriamente entre las variantes. Si una división de 50/50 resulta en 47/53, algo anda mal — SRM alerta sobre esta inconsistencia. Ambas plataformas implementan esta comprobación.

Statsig vs GrowthBook

Statsig:

Adquirida por OpenAI por
.1B (septiembre de 2025). Plataforma SaaS hospedada.
Pruebas secuenciales, CUPED, poblaciones de control retenidas.
All-in-one: reúne feature flags, experimentación y observabilidad.
Adecuado para: equipos que buscan una solución integrada y no les preocupa la propiedad intelectual por parte de OpenAI.

GrowthBook:

Código abierto (MIT); nativo de data warehouse (lee directamente de Snowflake/BigQuery/Redshift).
Múltiples motores: Bayesiano, Frecuentista y Secuencial.
CUPED, SRM, Bonferroni y correcciones BH.
Disponible para auto-hospedaje o nube administrada.
Adecuado para: operaciones estructuradas en SQL en data warehouse, donde el equipo de datos gestiona la capa de métricas y prioriza el código abierto.

El no determinismo complica el poder estadístico

El mismo prompt produce salidas variables. Los cálculos tradicionales de poder estadístico asumen observaciones IID (independientes e idénticamente distribuidas). Con el no determinismo de los LLMs, el tamaño efectivo de la muestra es menor que el nominal. Multiplique el tamaño de muestra requerido por ~1.3-1.5x como margen de seguridad.

Resultados de casos reales

Variante de modelo de recompensa para chatbot: +70% de duración de conversación, +30% de retención.
Líneas de asunto Nextdoor: +1% de CTR tras el refinamiento de la función de recompensa.
Khan Academy Khanmigo: balance iterativo de latencia vs precisión matemática.

El antipatrón: lanzar basándose en la intuición

Cualquier ingeniero sénior recuerda alguna característica que se lanzó porque "se sentía mejor" sin una prueba A/B. La mayoría de ellas degradaron métricas de producto que el equipo tardó meses en notar. La prueba A/B es la regla de validación.

Números que debe recordar

Statsig adquirida por OpenAI:
.1B, septiembre de 2025.
GrowthBook: código abierto MIT; Bayesiano + Frecuentista + Secuencial.
Reducción de varianza con CUPED: 30-70%.
No determinismo de LLM → buffer de +30-50% en el tamaño de la muestra.

Uso

code/main.py simula una prueba A/B secuencial con límites fijos y secuenciales. Demuestra cómo los límites secuenciales permiten detener la prueba antes de tiempo.

Puesta en Producción

Esta lección produce outputs/skill-ab-plan.md. Dada la alteración en la característica, la carga de trabajo y la línea base, elige plataforma, criterios de liberación y tamaño muestral.

Ejercicios

Ejecute code/main.py. Para una mejora esperada del 5% con conversión base del 3%, ¿qué tamaño de muestra es necesario para lograr un 80% de poder estadístico?
Elija entre Statsig o GrowthBook para un cliente de salud altamente regulado y que opera on-premise.
Diseñe una prueba A/B comparando GPT-4 vs GPT-3.5 en el costo por ticket resuelto. Defina la métrica primaria, la métrica de control (guardrail) y las secundarias.
Su canary pasa los criterios de liberación, pero la prueba A/B indica -1.2% de conversión. ¿Realiza el lanzamiento? Escriba los criterios de escalamiento.
Aplique CUPED a un período previo al experimento con el 60% de la varianza observada en el período posterior. Calcule el aumento en el tamaño de muestra efectivo.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Eval	"prueba offline"	Evaluación en conjunto etiquetado de la capacidad del modelo
Prueba A/B	"experimento"	Comparación aleatorizada directa con usuarios reales
CUPED	"reducción de varianza"	Regresión de período pre-experimento para disminuir la varianza
Prueba secuencial	"prueba con peeking permitido"	Procedimiento siempre válido que permite detenerse antes de tiempo
Comparación múltiple	"el error familiar"	Ejecutar muchas pruebas simultáneas infla los falsos positivos
Bonferroni	"corrección rígida"	Divide α por el número total de pruebas realizadas
Benjamini-Hochberg	"BH FDR"	Control de la tasa de falso descubrimiento, menos conservador
SRM	"división incorrecta"	Sample ratio mismatch (desalineación muestral); error de asignación
Statsig	"propiedad de OpenAI"	Plataforma SaaS comercial, adquirida en 2025
GrowthBook	"la versión OSS"	Plataforma MIT de experimentación nativa de data warehouse
mSPRT	"prueba secuencial de razón de probabilidad"	Procedimiento de prueba secuencial clásico