Phase 10 - Lesson 10

Avaliação: Benchmarks, Evals, LM Harness

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Lei de Goodhart: quando uma medida se torna uma meta, ela deixa de ser uma boa medida. Todos os laboratórios de fronteira manipulam benchmarks. As pontuações do MMLU sobem enquanto os modelos ainda não conseguem contar com segurança o número de R's em "strawberry". A única avaliação que importa é a SUA avaliação -- na SUA tarefa, com os SEUS dados.

Tipo: Construção Idiomas: Python Pré-requisitos: Fase 10, Lições 01-05 (LLMs do Zero) Tempo: ~90 minutos

Objetivos de Aprendizado

Construir um harness de avaliação customizado que execute benchmarks de múltipla escolha e de resposta aberta contra um modelo de linguagem
Explicar por que benchmarks padrão (MMLU, HumanEval) saturam e falham em diferenciar modelos de fronteira
Implementar evals específicos de tarefas com métricas adequadas: correspondência exata (exact match), F1, BLEU e pontuação com LLM como juiz (LLM-as-judge)
Projetar uma suite de avaliação customizada direcionada ao seu caso de uso específico, em vez de depender apenas de tabelas de classificação (leaderboards) públicas

O Problema

O MMLU foi publicado em 2020 com 15.908 perguntas em 57 assuntos. Em três anos, os modelos de fronteira o saturaram. O GPT-4 obteve 86,4%. O Claude 3 Opus obteve 86,8%. O Llama 3 405B obteve 88,6%. A tabela de classificação comprimiu-se em um intervalo de 3 pontos onde as diferenças são ruídos estatísticos, não lacunas reais de capacidade.

Enquanto isso, esses mesmos modelos falham em tarefas que uma criança de 10 anos resolve sem pensar. O Claude 3.5 Sonnet, com pontuação de 88,7% no MMLU, inicialmente não conseguia contar as letras em "strawberry" -- uma tarefa que requer zero conhecimento de mundo e zero raciocínio, apenas iteração em nível de caractere. O HumanEval testa a geração de código com 164 problemas. Os modelos obtêm mais de 90% nele enquanto ainda produzem código que falha em casos extremos (edge cases) que qualquer desenvolvedor júnior detectaria.

A lacuna entre o desempenho em benchmarks e a confiabilidade no mundo real é o problema central da avaliação de LLMs. Os benchmarks informam como um modelo se sai no benchmark. Eles não dizem quase nada sobre como esse modelo se sairá na sua tarefa específica, com seus dados específicos, sob seus modos de falha específicos. Se você está construindo um bot de suporte ao cliente, o MMLU é irrelevante. Se você está construindo um assistente de código, o HumanEval cobre apenas a geração no nível de função -- não diz nada sobre depuração, refatoração ou explicação de código entre arquivos.

Você precisa de evals customizadas. Não porque os benchmarks sejam inúteis -- eles são úteis para uma seleção preliminar de modelos -- mas porque a avaliação final deve corresponder exatamente às suas condições de implantação.

O Conceito

O Cenário de Avaliação

Existem três categorias de avaliação, cada uma com custos e qualidade de sinal diferentes.

Benchmarks são suites de testes padronizadas. MMLU, HumanEval, SWE-bench, MATH, ARC, HellaSwag. Você executa um modelo contra o benchmark e obtém uma pontuação. A vantagem: todos usam o mesmo teste, permitindo comparar modelos. A desvantagem: modelos e dados de treinamento contaminam cada vez mais esses benchmarks. Os laboratórios treinam os modelos em dados que incluem perguntas dos benchmarks. As pontuações sobem. A capacidade real pode não subir.

Evals customizadas são suites de testes que você constrói para o seu caso de uso específico. Você define as entradas, as saídas esperadas e a função de pontuação. Um sumarizador de documentos jurídicos é avaliado em documentos jurídicos. Um gerador de SQL é avaliado no esquema do seu banco de dados. Essas suites são caras para criar, mas são a única avaliação que prevê o desempenho em produção.

Avaliações humanas usam anotadores pagos para julgar as saídas dos modelos com base em critérios como utilidade, correção, fluência e segurança. O padrão-ouro para tarefas abertas onde a pontuação automatizada falha. O Chatbot Arena coletou mais de 2 milhões de votos de preferência humana em mais de 100 modelos. A desvantagem: custo (de $0,10 a

Tipo de Avaliação	Custo por julgamento	Concordância com humanos	Ideal para
Correspondência exata	~$0	100% (quando aplicável)	Saída estruturada, classificação
BLEU/ROUGE	~$0	~60%	Tradução, sumarização
LLM como juiz	~$0.01	~80%	Geração de respostas abertas
Avaliação humana	$0.10- .00	N/A (é a referência real)	Tarefas ambíguas de alta relevância

Termo	O que dizem	O que realmente significa
MMLU	"O benchmark"	Massive Multitask Language Understanding -- 15.908 perguntas de múltipla escolha em 57 assuntos, saturado acima de 88% por volta de 2025
HumanEval	"Avaliação de código"	164 problemas de preenchimento de função em Python da OpenAI, testa apenas a geração de funções isoladas
SWE-bench	"Avaliação de codificação real"	2.294 problemas do GitHub extraídos de 12 repositórios Python, mede a correção de bugs de ponta a ponta, incluindo a geração de testes
Perplexidade (Perplexity)	"O quão confuso o modelo está"	exp(-avg(log P(token_i dado o contexto))) -- menor significa que o modelo atribui maior probabilidade aos tokens reais
Classificação ELO	"Ranking de xadrez para modelos"	Uma classificação de habilidade relativa calculada a partir de registros pareados de vitórias/derrotas, usada pelo Chatbot Arena para classificar mais de 100 modelos
LLM como juiz	"Usar IA para dar nota à IA"	Um modelo forte pontua as saídas de um modelo mais fraco contra uma rubrica, com ~80% de concordância com juízes humanos a um custo de ~$0,01 por julgamento
Contaminação de dados	"O modelo viu a prova"	Os dados de treinamento incluem perguntas do benchmark, inflando as pontuações sem melhorar a capacidade real
Suite de avaliação (Eval suite)	"Um monte de testes"	Uma coleção versionada de triplas (entrada, saída_esperada, pontuador) que medem uma capacidade específica
Taxa de aprovação (Pass rate)	"Qual porcentagem ele acerta"	Fração de casos de avaliação que pontuam acima de um limite -- mais acionável do que a pontuação média porque mede a confiabilidade
Chatbot Arena	"Site de ranking de modelos"	Plataforma LMSYS com mais de 2 milhões de votos de preferência humana, gerando a tabela de classificação de LLMs mais confiável por meio de classificações ELO

Avaliação: Benchmarks, Evals, LM Harness

Objetivos de Aprendizado

O Problema

O Conceito

O Cenário de Avaliação

Por Que os Benchmarks Quebram

Perplexidade: Um Rápido Teste de Integridade (Health Check)

LLM como Juiz (LLM-as-Judge)

Classificações ELO a Partir de Comparações Pareadas

Frameworks de Avaliação

Construindo Evals Customizadas

Construa

Passo 1: Um Framework de Avaliação Mínimo

Passo 2: Funções de Pontuação

Passo 3: Sistema de Classificação ELO

Passo 4: Cálculo de Perplexidade

Passo 5: Agregar Resultados

Passo 6: Executar o Pipeline Completo

Passo 7: Torneio ELO

Passo 8: Comparação de Perplexidade

Como Usar

lm-evaluation-harness (EleutherAI)

promptfoo

RAGAS para avaliação de RAG

Conclusão

Exercícios

Termos-Chave

Leituras Adicionais