Phase 11 - Lesson 10

Avaliação e Testes de Aplicações de LLM

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Você nunca faria o deploy de um aplicativo web sem testes. Você nunca enviaria uma migração de banco de dados sem um plano de rollback. Mas hoje, a maioria das equipes envia aplicações de LLM lendo 10 saídas e dizendo "sim, parece bom". Isso não é avaliação. Isso é esperança. Esperança não é uma prática de engenharia. Cada alteração de prompt, cada troca de modelo, cada ajuste de temperatura muda sua distribuição de saída de maneiras que você não pode prever lendo um punhado de exemplos. A avaliação é a única coisa que impede sua aplicação de sofrer uma degradação silenciosa.

Type: Build Languages: Python Prerequisites: Phase 11 Lesson 01 (Prompt Engineering), Lesson 09 (Function Calling) Time: ~45 minutos Related: Phase 5 · 27 (LLM Evaluation — RAGAS, DeepEval, G-Eval) cobre os conceitos em nível de framework (fidelidade baseada em NLI, calibração do juiz, os quatro do RAG). Phase 5 · 28 (Long-Context Evaluation) cobre NIAH / RULER / LongBench / MRCR para regressão de comprimento de contexto. Esta lição foca no que é específico de engenharia de LLM: integração de CI/CD, execuções de avaliação limitadas por custo, dashboards de regressão.

Objetivos de Aprendizado

Construir um conjunto de dados de avaliação com pares de entrada-saída, rubricas e casos de borda específicos para sua aplicação de LLM
Implementar pontuação automatizada usando LLM como juiz, correspondência de regex e verificações de asserção determinísticas
Configurar testes de regressão que detectam degradação de qualidade quando prompts, modelos ou parâmetros mudam
Projetar métricas de avaliação que capturem o que importa para o seu caso de uso (correção, tom, conformidade de formato, latência)

O Problema

Você cria um chatbot RAG para suporte ao cliente. Ele funciona muito bem em suas demonstrações. Você o lança. Duas semanas depois, alguém altera o prompt do sistema para reduzir alucinações. A alteração funciona — a taxa de alucinação diminui. Mas a completude da resposta também cai 34% porque o modelo agora se recusa a responder a qualquer coisa sobre a qual não tenha 100% de certeza.

Ninguém percebeu por 11 dias. A receita do canal de autoatendimento caiu. Os chamados de suporte aumentaram.

Esse é o resultado padrão quando você avalia por intuição (vibes). Você verifica alguns exemplos, eles parecem bons, você faz o merge. Mas as saídas de LLM são estocásticas. Um prompt que funciona em 5 casos de teste pode falhar no 6º. Um modelo com pontuação de 92% em seus benchmarks pode pontuar 71% nos casos de borda que seus usuários realmente encontram.

A solução não é "ser mais cuidadoso". A solução é a avaliação automatizada que roda a cada alteração, pontua as saídas em relação a rubricas, calcula intervalos de confiança e bloqueia a implantação quando a qualidade regride.

A avaliação não é algo opcional. É o básico (table stakes). Lançar sem avaliações é fazer deploy às cegas.

O Conceito

A Taxonomia de Avaliação

Existem três categorias de avaliação de LLM. Cada uma tem um papel. Nenhuma é suficiente sozinha.

graph TD
    E[Avaliação de LLM] --> A[Métricas Automatizadas]
    E --> L[LLM como Juiz]
    E --> H[Avaliação Humana]

    A --> A1[BLEU]
    A --> A2[ROUGE]
    A --> A3[BERTScore]
    A --> A4[Exact Match]

    L --> L1[Avaliador Único]
    L --> L2[Comparação Pareada]
    L --> L3[Melhor de N]

    H --> H1[Revisão de Especialistas]
    H --> H2[Feedback do Usuário]
    H --> H3[Testes A/B]

    style A fill:#e8e8e8,stroke:#333
    style L fill:#e8e8e8,stroke:#333
    style H fill:#e8e8e8,stroke:#333

Métricas automatizadas comparam o texto de saída com respostas de referência usando algoritmos. O BLEU mede a sobreposição de n-gramas (originalmente para tradução automática). O ROUGE mede a revocação (recall) de n-gramas de referência (originalmente para sumarização). O BERTScore usa embeddings do BERT para medir a similaridade semântica. Essas métricas são rápidas e baratas — você pode pontuar 10.000 saídas em segundos. Mas elas perdem nuances. Duas respostas podem ter zero sobreposição de palavras e ambas estarem corretas. Uma resposta pode ter ROUGE alto e estar completamente errada no contexto.

LLM como juiz usa um modelo forte (GPT-5, Claude Opus 4.7, Gemini 3 Pro) para avaliar as saídas em relação a uma rubrica. Isso captura a qualidade semântica — relevância, correção, utilidade, segurança — que as métricas de string perdem. Custa dinheiro (~$8 por 1.000 chamadas de juiz com o GPT-5-mini, ~

Método	Velocidade	Custo por 1K avaliações	Correlação com humanos	Melhor para
BLEU/ROUGE	<1 seg	$0	40-60%	Baselines de tradução e sumarização
BERTScore	~30 seg	$0	55-70%	Triagem de similaridade semântica
LLM como juiz (GPT-5-mini)	~3 min	~$8	82-86%	Juiz padrão de CI; barato, rápido, calibrado
LLM como juiz (Claude Opus 4.7)	~5 min	~ 5	85-88%	Pontuação de alto risco, segurança, recusas
LLM como juiz (Gemini 3 Flash)	~2 min	~$3	80-84%	Juiz de maior throughput; para mais de 1M de avaliações
RAGAS (fidelidade NLI + juiz)	~5 min	~ 2	85%	Métricas específicas de RAG (ver Phase 5 · 27)
DeepEval (G-Eval + Pytest)	~4 min	depende do juiz	80-88%	Nativo de CI, gates de regressão por PR
Especialista humano	~2 horas	~$500	100% (por definição)	Calibração, casos de borda, políticas

Casos de teste	Acurácia observada	Largura do IC de 95%	Pode detectar regressão de 5%?
50	90%	19 pontos	Não
100	90%	12 pontos	Mal
200	90%	9 pontos	Sim
500	90%	5 pontos	Com confiança
1000	90%	3 pontos	Com precisão

Tamanho da avaliação	Juiz GPT-5-mini	Juiz Claude Opus 4.7	Juiz Gemini 3 Flash	Tempo
100 casos x 4 critérios	~	~$6	~$0.40	~2 min
200 casos x 4 critérios	~$4	~ 2	~$0.80	~4 min
500 casos x 4 critérios	~ 0	~$30	~	~10 min
1000 casos x 4 critérios	~ 0	~$60	~$4	~20 min

Ferramenta	O que faz	Preço
promptfoo	Framework de avaliação de código aberto, config YAML, LLM como juiz, integração de CI	Gratuito (OSS)
Braintrust	Plataforma de avaliação com pontuação, experimentos, conjuntos de dados, logging	Camada gratuita, depois por uso
LangSmith	Plataforma de avaliação/observabilidade da LangChain, tracing, datasets, anotação	Camada gratuita, a partir de $39/mês
DeepEval	Framework de avaliação em Python, mais de 14 métricas, integração com Pytest	Gratuito (OSS)
Arize Phoenix	Observabilidade + avaliações de código aberto, tracing, pontuação em nível de span	Gratuito (OSS)

Termo	O que as pessoas dizem	O que realmente significa
Avaliação (Eval)	"Testes"	Pontuar sistematicamente as saídas de LLM em relação a critérios definidos usando métricas automatizadas, juízes LLM ou revisão humana
LLM como juiz	"Nota da IA"	Usar um modelo forte (GPT-4o, Claude) para pontuar saídas em relação a uma rubrica — correlaciona-se em 80-85% com o julgamento humano
Rubrica	"Guia de pontuação"	Descrições ancoradas para cada nível de pontuação (1-5) que reduzem a variação do juiz definindo exatamente o que cada pontuação significa
ROUGE-L	"Sobreposição de texto"	Métrica baseada em Subsequência Comum Mais Longa (LCS) que mede quanto da referência aparece na saída — orientada a recall
Intervalo de confiança	"Margem de erro"	Um intervalo em torno da sua pontuação medida que informa quanta incerteza resta — mais amplo com menos casos de teste
Teste de regressão	"Antes/depois"	Executar a mesma suíte de avaliação em versões antigas e novas de prompts para detectar degradação de qualidade antes do deploy
Conjunto de teste de ouro	"Avaliações principais"	Pares de entrada-saída curados representando seus casos de uso mais importantes — toda alteração deve passar por eles
Comparação pareada	"A vs B"	Mostrar a um juiz duas saídas e perguntar qual é melhor — elimina problemas de calibração de escala
Bootstrap	"Reamostragem"	Estimar intervalos de confiança amostrando repetidamente suas pontuações com reposição — funciona com qualquer distribuição
Intervalo de Wilson	"IC de proporção"	Um intervalo de confiança para taxas de aprovação/reprovação que funciona corretamente mesmo com amostras pequenas ou proporções extremas

Avaliação e Testes de Aplicações de LLM

Objetivos de Aprendizado

O Problema

O Conceito

A Taxonomia de Avaliação

LLM como Juiz: O Cavalo de Batalha

Design de Rubricas

O Pipeline de Avaliação

Datasets de Avaliação: A Base

Tamanho da Amostra e Confiança

Testes de Regressão

Custo das Avaliações

Antipadrões

Ferramentas Reais

Construa

Passo 1: Definir as Estruturas de Dados de Avaliação

Passo 2: Construir o Avaliador LLM como Juiz

Passo 3: Construir Métricas Automatizadas

Passo 4: Construir a Calculadora de Intervalo de Confiança

Passo 5: Construir o Executor de Avaliação e o Relatório de Comparação

Passo 6: Executar a Demonstração

Use

Integração com promptfoo

Integração com DeepEval

Padrão de Integração de CI/CD

Envie (Ship It)

Exercícios

Termos Chave

Leituras Adicionais