Phase 17 - Lesson 21
Testes A/B para Funcionalidades de LLM — GrowthBook, Statsig e o Problema do Vibe Check
Os testes A/B tradicionais não foram concebidos para LLMs não determinísticas. A distinção crítica: as avaliações (evals) respondem a "o modelo consegue realizar a tarefa?", enquanto os testes A/B fazem a pergunta "os usuários se importam?". Ambos são necessários; a era de lançar funcionalidades com base apenas no "vibe check" (intuição) acabou. O que testar em 2026: engenharia de prompt (redação), seleção de modelos (GPT-4 vs GPT-3.5 vs OSS; acurácia vs custo vs latência) e parâmetros de geração (temperatura, top-p). Casos reais: uma variante de modelo de recompensa (reward-model) para chatbot gerou +70% de duração de conversa e +30% de retenção; experimentos de linhas de assunto de e-mail com IA da Nextdoor entregaram +1% de CTR após o refinamento da função de recompensa; a Khan Academy (com o Khanmigo) iterou sobre o eixo latência vs acurácia matemática. Divisão das plataformas: Statsig (adquirida pela OpenAI por
,1B em setembro de 2025) — testes sequenciais, CUPED, plataforma integrada (all-in-one). GrowthBook — código aberto, nativo de data warehouse, motores Bayesiano + Frequentista + Sequencial, CUPED, detecção de SRM e correções de Benjamini-Hochberg + Bonferroni. A escolha depende de sua preferência por consultas SQL em data warehouse e se o fato de a plataforma ser "propriedade da OpenAI" é relevante para a sua organização.Type: Learn Languages: Python (stdlib, simulador simples de teste sequencial) Prerequisites: Phase 17 · 13 (Observability), Phase 17 · 20 (Progressive Deployment) Time: ~60 minutos
Objetivos de Aprendizado
- Diferenciar avaliações (evals - "o modelo realiza a tarefa") de testes A/B ("os usuários se importam").
- Enumerar três eixos testáveis (prompt, modelo e parâmetros) e selecionar a métrica para cada um.
- Explicar CUPED, testes sequenciais e correções de comparações múltiplas de Benjamini-Hochberg.
- Escolher entre Statsig ou GrowthBook com base em seu modelo de dados SQL e postura sobre aquisições corporativas.
O Problema
Você ajustou manualmente um prompt de sistema. Ele parece melhor. Você o lança. A conversão varia dentro da margem de ruído. Você culpa a métrica. Ou você lançou um novo modelo e a conversão não se moveu — o modelo degradou ou a mudança foi sutil demais para ser detectada? Você não sabe, porque fez o lançamento sem um teste A/B.
Os evals respondem se o modelo consegue realizar uma tarefa em um conjunto de dados rotulado. Eles não respondem se os usuários preferem aquela resposta. Apenas um experimento online controlado responde a isso, e apenas se tiver poder estatístico suficiente, controlar o não determinismo e corrigir comparações múltiplas.
O Conceito
Evals vs Testes A/B
Evals — offline, conjunto rotulado, avaliador (rubrica, LLM-as-judge ou humano). Responde: "A resposta está correta / útil / segura nesta distribuição fixa?"
Teste A/B — online, usuários reais, aleatorizado. Responde: "A nova variante move a métrica de nível de usuário que realmente importa?"
Ambos são obrigatórios. Evals previnem regressões antes da exposição; testes A/B confirmam o impacto no produto depois.
O que testar
- Engenharia de prompt — redação, estrutura do prompt de sistema, exemplos. Métrica: sucesso da tarefa, retenção de usuários, custo por requisição.
- Seleção de modelos — GPT-4 vs GPT-3.5-Turbo vs Llama-OSS. Métrica: acurácia (tarefa) + custo por requisição + latência P99. Foco multi-objetivo.
- Parâmetros de geração — temperatura, top-p, max_tokens. Métrica: específica da tarefa (diversidade de saída vs determinismo).
CUPED — redução de variância
Controlled-experiments Using Pre-Experiment Data (Experimentos Controlados Utilizando Dados Pré-Experimento). Remove a variância do período pré-experimento antes de comparar o pós-experimento. Redução de variância típica: 30-70%. O tamanho efetivo da amostra aumenta gratuitamente.
Implementação: tanto Statsig quanto GrowthBook implementam.
Testes sequenciais
O teste A/B clássico pressupõe um tamanho de amostra fixo. Os testes sequenciais ("peek-and-decide") controlam a taxa de falsos positivos sob visualizações repetidas (peeking). Procedimentos sequenciais sempre válidos (mSPRT, sequências de confiança de Howard) permitem interromper o teste antecipadamente ao identificar vencedores claros.
Correções de comparações múltiplas
Executar 20 testes A/B com 95% de confiança produz um falso positivo puramente por acaso. A correção de Bonferroni reduz o limiar alfa (α) por teste; a de Benjamini-Hochberg controla a taxa de falsa descoberta (FDR). O GrowthBook implementa ambas.
SRM — desalinhamento na proporção amostral
O hash de atribuição distribui os usuários aleatoriamente entre as variantes. Se uma divisão de 50/50 resulta em 47/53, algo está errado — o SRM alerta sobre essa inconsistência. Ambas as plataformas implementam essa checagem.
Statsig vs GrowthBook
Statsig:
- Adquirida pela OpenAI por
,1B (setembro de 2025). Plataforma SaaS hospedada.- Testes sequenciais, CUPED, populações de controle retidas.
- All-in-one: reúne feature flags, experimentação e observabilidade.
- Melhor aplicação: equipes que buscam uma solução integrada e não se opõem à propriedade intelectual pela OpenAI.
GrowthBook:
- Código aberto (MIT); nativo do data warehouse (lê diretamente do Snowflake/BigQuery/Redshift).
- Múltiplos motores: Bayesiano, Frequentista e Sequencial.
- CUPED, SRM, Bonferroni e correções BH.
- Disponível para auto-hospedagem ou nuvem gerenciada.
- Melhor aplicação: operações estruturadas em SQL no data warehouse, onde a equipe de dados gerencia a camada de métricas e prioriza open-source.
O não determinismo complica o poder estatístico
O mesmo prompt produz saídas variáveis. Os cálculos de poder estatístico tradicionais assumem observações IID (independentes e identicamente distribuídas). Com o não determinismo de LLMs, o tamanho efetivo da amostra é menor do que o nominal. Multiplique o tamanho necessário da amostra por ~1,3-1,5x como margem de segurança.
Resultados de casos reais
- Variante de modelo de recompensa para chatbot: +70% de duração de conversa, +30% de retenção.
- Linhas de assunto Nextdoor: +1% de CTR após o refinamento da função de recompensa.
- Khan Academy Khanmigo: trade-off interativo de latência vs acurácia matemática.
O antipadrão: lançar com base no "feeling"
Qualquer engenheiro sênior lembra de alguma funcionalidade lançada porque "parecia melhor" sem um teste A/B. A maioria delas degradou métricas de produto que a equipe levou meses para perceber. O teste A/B é a regra de validação.
Números que você deve lembrar
- Statsig adquirida pela OpenAI:
,1B, setembro de 2025.- GrowthBook: open-source MIT; Bayesiano + Frequentista + Sequencial.
- Redução de variância com CUPED: 30-70%.
- Não determinismo de LLM → buffer de +30-50% no tamanho da amostra.
Use
code/main.pysimula um teste A/B sequencial com limites fixos e sequenciais. Demonstra como os limites sequenciais permitem a interrupção precoce do teste.Coloque em Produção
Esta lição produz
outputs/skill-ab-plan.md. Dada a alteração na funcionalidade, a carga de trabalho e o baseline, escolhe plataforma, critérios de liberação e tamanho amostral.Exercícios
- Execute
code/main.py. Para uma melhoria esperada de 5% com conversão base de 3%, qual tamanho de amostra é necessário para atingir 80% de poder estatístico?- Escolha entre Statsig ou GrowthBook para um cliente da área de saúde altamente regulado e operando on-premise.
- Projete um teste A/B comparando GPT-4 vs GPT-3.5 no custo por ticket resolvido. Defina a métrica primária, a métrica de controle (guardrail) e as secundárias.
- Seu canary passa nos critérios de liberação, mas o teste A/B indica -1,2% de conversão. Você realiza o lançamento? Escreva os critérios de escalada.
- Aplique CUPED em um período pré-experimento com 60% da variância observada no período pós. Calcule o ganho no tamanho efetivo da amostra.
Termos-Chave
Termo O que dizem O que realmente significa Eval "teste offline" Avaliação em conjunto rotulado da capacidade do modelo Teste A/B "experimento" Comparação aleatorizada direta com usuários reais CUPED "redução de variância" Regressão de período pré-experimento para diminuir variância Teste sequencial "teste com peeking permitido" Procedimento sempre válido que permite interrupção precoce Comparação múltipla "o erro familiar" Executar muitos testes simultâneos infla falsos positivos Bonferroni "correção rígida" Divide α pelo número total de testes realizados Benjamini-Hochberg "BH FDR" Controle da taxa de descoberta falsa, menos conservador SRM "divisão incorreta" Sample ratio mismatch (desalinhamento amostral); erro de atribuição Statsig "propriedade da OpenAI" Plataforma SaaS comercial, adquirida em 2025 GrowthBook "a versão OSS" Plataforma MIT de experimentação nativa de data warehouse mSPRT "teste sequencial de razão de probabilidade" Procedimento de teste sequencial clássico Leituras Adicionais