Phase 17 - Lesson 21

Testes A/B para Funcionalidades de LLM — GrowthBook, Statsig e o Problema do Vibe Check

Os testes A/B tradicionais não foram concebidos para LLMs não determinísticas. A distinção crítica: as avaliações (evals) respondem a "o modelo consegue realizar a tarefa?", enquanto os testes A/B fazem a pergunta "os usuários se importam?". Ambos são necessários; a era de lançar funcionalidades com base apenas no "vibe check" (intuição) acabou. O que testar em 2026: engenharia de prompt (redação), seleção de modelos (GPT-4 vs GPT-3.5 vs OSS; acurácia vs custo vs latência) e parâmetros de geração (temperatura, top-p). Casos reais: uma variante de modelo de recompensa (reward-model) para chatbot gerou +70% de duração de conversa e +30% de retenção; experimentos de linhas de assunto de e-mail com IA da Nextdoor entregaram +1% de CTR após o refinamento da função de recompensa; a Khan Academy (com o Khanmigo) iterou sobre o eixo latência vs acurácia matemática. Divisão das plataformas: Statsig (adquirida pela OpenAI por

,1B em setembro de 2025) — testes sequenciais, CUPED, plataforma integrada (all-in-one). GrowthBook — código aberto, nativo de data warehouse, motores Bayesiano + Frequentista + Sequencial, CUPED, detecção de SRM e correções de Benjamini-Hochberg + Bonferroni. A escolha depende de sua preferência por consultas SQL em data warehouse e se o fato de a plataforma ser "propriedade da OpenAI" é relevante para a sua organização.

Type: Learn Languages: Python (stdlib, simulador simples de teste sequencial) Prerequisites: Phase 17 · 13 (Observability), Phase 17 · 20 (Progressive Deployment) Time: ~60 minutos

Objetivos de Aprendizado

  • Diferenciar avaliações (evals - "o modelo realiza a tarefa") de testes A/B ("os usuários se importam").
  • Enumerar três eixos testáveis (prompt, modelo e parâmetros) e selecionar a métrica para cada um.
  • Explicar CUPED, testes sequenciais e correções de comparações múltiplas de Benjamini-Hochberg.
  • Escolher entre Statsig ou GrowthBook com base em seu modelo de dados SQL e postura sobre aquisições corporativas.

O Problema

Você ajustou manualmente um prompt de sistema. Ele parece melhor. Você o lança. A conversão varia dentro da margem de ruído. Você culpa a métrica. Ou você lançou um novo modelo e a conversão não se moveu — o modelo degradou ou a mudança foi sutil demais para ser detectada? Você não sabe, porque fez o lançamento sem um teste A/B.

Os evals respondem se o modelo consegue realizar uma tarefa em um conjunto de dados rotulado. Eles não respondem se os usuários preferem aquela resposta. Apenas um experimento online controlado responde a isso, e apenas se tiver poder estatístico suficiente, controlar o não determinismo e corrigir comparações múltiplas.

O Conceito

Evals vs Testes A/B

Evals — offline, conjunto rotulado, avaliador (rubrica, LLM-as-judge ou humano). Responde: "A resposta está correta / útil / segura nesta distribuição fixa?"

Teste A/B — online, usuários reais, aleatorizado. Responde: "A nova variante move a métrica de nível de usuário que realmente importa?"

Ambos são obrigatórios. Evals previnem regressões antes da exposição; testes A/B confirmam o impacto no produto depois.

O que testar

  1. Engenharia de prompt — redação, estrutura do prompt de sistema, exemplos. Métrica: sucesso da tarefa, retenção de usuários, custo por requisição.
  2. Seleção de modelos — GPT-4 vs GPT-3.5-Turbo vs Llama-OSS. Métrica: acurácia (tarefa) + custo por requisição + latência P99. Foco multi-objetivo.
  3. Parâmetros de geração — temperatura, top-p, max_tokens. Métrica: específica da tarefa (diversidade de saída vs determinismo).

CUPED — redução de variância

Controlled-experiments Using Pre-Experiment Data (Experimentos Controlados Utilizando Dados Pré-Experimento). Remove a variância do período pré-experimento antes de comparar o pós-experimento. Redução de variância típica: 30-70%. O tamanho efetivo da amostra aumenta gratuitamente.

Implementação: tanto Statsig quanto GrowthBook implementam.

Testes sequenciais

O teste A/B clássico pressupõe um tamanho de amostra fixo. Os testes sequenciais ("peek-and-decide") controlam a taxa de falsos positivos sob visualizações repetidas (peeking). Procedimentos sequenciais sempre válidos (mSPRT, sequências de confiança de Howard) permitem interromper o teste antecipadamente ao identificar vencedores claros.

Correções de comparações múltiplas

Executar 20 testes A/B com 95% de confiança produz um falso positivo puramente por acaso. A correção de Bonferroni reduz o limiar alfa (α) por teste; a de Benjamini-Hochberg controla a taxa de falsa descoberta (FDR). O GrowthBook implementa ambas.

SRM — desalinhamento na proporção amostral

O hash de atribuição distribui os usuários aleatoriamente entre as variantes. Se uma divisão de 50/50 resulta em 47/53, algo está errado — o SRM alerta sobre essa inconsistência. Ambas as plataformas implementam essa checagem.

Statsig vs GrowthBook

Statsig:

  • Adquirida pela OpenAI por
    ,1B (setembro de 2025). Plataforma SaaS hospedada.
  • Testes sequenciais, CUPED, populações de controle retidas.
  • All-in-one: reúne feature flags, experimentação e observabilidade.
  • Melhor aplicação: equipes que buscam uma solução integrada e não se opõem à propriedade intelectual pela OpenAI.

GrowthBook:

  • Código aberto (MIT); nativo do data warehouse (lê diretamente do Snowflake/BigQuery/Redshift).
  • Múltiplos motores: Bayesiano, Frequentista e Sequencial.
  • CUPED, SRM, Bonferroni e correções BH.
  • Disponível para auto-hospedagem ou nuvem gerenciada.
  • Melhor aplicação: operações estruturadas em SQL no data warehouse, onde a equipe de dados gerencia a camada de métricas e prioriza open-source.

O não determinismo complica o poder estatístico

O mesmo prompt produz saídas variáveis. Os cálculos de poder estatístico tradicionais assumem observações IID (independentes e identicamente distribuídas). Com o não determinismo de LLMs, o tamanho efetivo da amostra é menor do que o nominal. Multiplique o tamanho necessário da amostra por ~1,3-1,5x como margem de segurança.

Resultados de casos reais

  • Variante de modelo de recompensa para chatbot: +70% de duração de conversa, +30% de retenção.
  • Linhas de assunto Nextdoor: +1% de CTR após o refinamento da função de recompensa.
  • Khan Academy Khanmigo: trade-off interativo de latência vs acurácia matemática.

O antipadrão: lançar com base no "feeling"

Qualquer engenheiro sênior lembra de alguma funcionalidade lançada porque "parecia melhor" sem um teste A/B. A maioria delas degradou métricas de produto que a equipe levou meses para perceber. O teste A/B é a regra de validação.

Números que você deve lembrar

  • Statsig adquirida pela OpenAI:
    ,1B, setembro de 2025.
  • GrowthBook: open-source MIT; Bayesiano + Frequentista + Sequencial.
  • Redução de variância com CUPED: 30-70%.
  • Não determinismo de LLM → buffer de +30-50% no tamanho da amostra.

Use

code/main.py simula um teste A/B sequencial com limites fixos e sequenciais. Demonstra como os limites sequenciais permitem a interrupção precoce do teste.

Coloque em Produção

Esta lição produz outputs/skill-ab-plan.md. Dada a alteração na funcionalidade, a carga de trabalho e o baseline, escolhe plataforma, critérios de liberação e tamanho amostral.

Exercícios

  1. Execute code/main.py. Para uma melhoria esperada de 5% com conversão base de 3%, qual tamanho de amostra é necessário para atingir 80% de poder estatístico?
  2. Escolha entre Statsig ou GrowthBook para um cliente da área de saúde altamente regulado e operando on-premise.
  3. Projete um teste A/B comparando GPT-4 vs GPT-3.5 no custo por ticket resolvido. Defina a métrica primária, a métrica de controle (guardrail) e as secundárias.
  4. Seu canary passa nos critérios de liberação, mas o teste A/B indica -1,2% de conversão. Você realiza o lançamento? Escreva os critérios de escalada.
  5. Aplique CUPED em um período pré-experimento com 60% da variância observada no período pós. Calcule o ganho no tamanho efetivo da amostra.

Termos-Chave

Termo O que dizem O que realmente significa
Eval "teste offline" Avaliação em conjunto rotulado da capacidade do modelo
Teste A/B "experimento" Comparação aleatorizada direta com usuários reais
CUPED "redução de variância" Regressão de período pré-experimento para diminuir variância
Teste sequencial "teste com peeking permitido" Procedimento sempre válido que permite interrupção precoce
Comparação múltipla "o erro familiar" Executar muitos testes simultâneos infla falsos positivos
Bonferroni "correção rígida" Divide α pelo número total de testes realizados
Benjamini-Hochberg "BH FDR" Controle da taxa de descoberta falsa, menos conservador
SRM "divisão incorreta" Sample ratio mismatch (desalinhamento amostral); erro de atribuição
Statsig "propriedade da OpenAI" Plataforma SaaS comercial, adquirida em 2025
GrowthBook "a versão OSS" Plataforma MIT de experimentação nativa de data warehouse
mSPRT "teste sequencial de razão de probabilidade" Procedimento de teste sequencial clássico

Leituras Adicionais

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).