Phase 19 - Lesson 14
Capstone 14 — Servidor de Inferência com Decodificação Especulativa
O EAGLE-3 no vLLM 0.7 entrega de 2,5 a 3 vezes mais vazão (throughput) em tráfego real. O P-EAGLE (AWS 2026) levou a especulação paralela ainda mais longe. O SpecForge do SGLang treinou cabeças de rascunho (draft heads) em escala. O hub Speculators da Red Hat publicou rascunhos alinhados para modelos abertos comuns. O TensorRT-LLM tornou a decodificação especulativa nativa de primeira classe na NVIDIA. A pilha de serviço de produção para 2026 é o vLLM ou SGLang com rascunhos da família EAGLE, quantização FP8 ou INT4 e HPA (Autoscaler de Pod Horizontal) com base no tempo de espera em fila (queue-wait). Este capstone tem como objetivo servir dois modelos abertos atingindo pelo menos 2,5x a vazão de referência com um relatório completo de latência de cauda.
Type: Capstone Languages: Python (serviço), C++ / CUDA (inspeção de kernel), YAML (configurações) Prerequisites: Phase 3 (deep learning), Phase 7 (transformers), Phase 10 (LLMs from scratch), Phase 17 (infrastructure) Phases exercised: P3 · P7 · P10 · P17 Time: 30 horas
Problem
A decodificação especulativa tornou-se uma commodity em 2026. As cabeças de rascunho EAGLE-3 são treinadas nos estados ocultos (hidden states) do modelo de destino (target) e preveem N tokens adiante; o modelo target realiza a verificação em uma única passagem. Taxas de aceitação de 60-80% traduzem-se em 2-3x a vazão de ponta a ponta. O vLLM 0.7 integra isso de forma nativa. O SGLang + SpecForge fornece o pipeline de treinamento. O hub Speculators da Red Hat publica rascunhos alinhados para Llama 3.3 70B, Qwen3-Coder-30B MoE e GPT-OSS-120B.
A complexidade está nas operações de serviço, e não no modelo. A taxa de aceitação oscila de acordo com a distribuição do tráfego (ShareGPT vs código vs dados de domínio). A latência de cauda em caso de rejeição é pior do que sem especulação — você deve reportar o p99 em múltiplos tamanhos de lote (batch sizes), e não apenas os tokens/seg no estado estável. O custo por 1 milhão de tokens comparado com as APIs da Anthropic / OpenAI é a alavanca de credibilidade.
Concept
A decodificação especulativa possui duas camadas. Um modelo de rascunho (draft) (cabeça EAGLE-3, ngram ou modelo menor alinhado ao target) propõe k tokens candidatos por etapa. O modelo de destino (target) verifica todos os k em uma única passagem; qualquer prefixo aceito substitui o caminho ganancioso (greedy). A taxa de aceitação depende do alinhamento entre o rascunho e o target e da distribuição das entradas.
O EAGLE-3 supera rascunhos ngram na maior parte do tráfego. O P-EAGLE executa especulação paralela para árvores de rascunho mais profundas. A desvantagem: a latência P99 na rejeição é mais alta porque a etapa de verificação é maior. A configuração de serviço deve reportar a latência segmentada por tamanho de lote para evidenciar isso.
A implantação é feita no Kubernetes. O vLLM 0.7 executa uma réplica por GPU ou fragmento em paralelo de tensores (tensor-parallel). O HPA realiza o escalonamento automático baseado no tempo de espera em fila, em vez de CPU. Quantizações FP8 (Marlin) e INT4 (AWQ) mantêm a memória de GPU dentro do limite de uma H100 / H200. O relatório de ponta a ponta detalha a vazão, taxa de aceitação, p50/p99 com lotes de 1/8/32 e o custo por 1M tokens.
Architecture
entrada da requisição (ingress)
|
v
servidor vLLM (0.7) ou SGLang (0.4)
|
+-- draft: cabeças EAGLE-3 | P-EAGLE paralelo | fallback ngram
+-- target: Llama 3.3 70B | Qwen3-Coder-30B | GPT-OSS-120B
| quantizado FP8-Marlin ou INT4-AWQ
|
v
etapa de verificação: processa lote de k tokens do draft no target
|
v (aceita prefixo; reamostra para o sufixo rejeitado)
v
fluxo de tokens enviado de volta ao cliente
|
v
métricas Prometheus: vazão, taxa de aceitação, tempo de fila, latência p50/p99
|
v
HPA com base na métrica de tempo de fila
Stack
- Serviço: vLLM 0.7 ou SGLang 0.4
- Métodos especulativos: cabeças de rascunho EAGLE-3, especulação paralela P-EAGLE, fallback ngram
- Treinamento do draft: SpecForge (SGLang) ou Red Hat Speculators
- Modelos de destino (target): Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B
- Quantização: FP8 (Marlin), INT4 AWQ
- Implantação: Kubernetes + plugin de dispositivo NVIDIA; HPA com base na métrica de tempo de fila
- Avaliação: ShareGPT, MT-Bench-v2, GSM8K, HumanEval para medição de aceitação em diferentes domínios
- Referência: decodificação especulativa TensorRT-LLM para linha de base do fabricante
Build It
Preparação do modelo target. Escolha o Llama 3.3 70B. Quantize para FP8 via Marlin. Implante sob vLLM 0.7 em 1xH100 (ou 2x paralelos de tensores).
Origem do rascunho (draft). Obtenha uma cabeça de rascunho EAGLE-3 alinhada no Red Hat Speculators (ou treine uma via SpecForge). Carregue na configuração de decodificação especulativa do vLLM.
Números da linha de base. Sem especulação: tokens/s com lote 1/8/32, latência p50/p99, utilização de GPU. Publique.
Habilitar EAGLE-3. Mude a configuração; execute novamente o mesmo benchmark. Relate o ganho de velocidade (speedup), a taxa de aceitação e a variação de latência de cauda p99.
P-EAGLE. Ative a especulação paralela; meça a árvore de rascunho mais profunda contra o EAGLE-3 serial. Relate o ponto de inflexão onde o P-EAGLE ajuda versus prejudica.
Tráfego de domínio. Execute ShareGPT vs HumanEval vs tráfego específico do domínio no mesmo servidor. Meça a taxa de aceitação por distribuição. Identifique quando ocorre desvio nos rascunhos.
Segundo modelo target. Execute o mesmo pipeline no Qwen3-Coder-30B MoE. O rascunho é mais complexo devido ao ruído de roteamento do MoE. Relate os resultados.
HPA no K8s. Implante sob K8s com HPA rastreando
queue_wait_ms. Demonstre o escalonamento horizontal quando a carga triplicar.Comparação de custos. Calcule o custo por 1M de tokens contra o Anthropic Claude Sonnet 4.7 e o OpenAI GPT-5.4 no mesmo teste de avaliação. Publique.
Use It
$ curl https://infer.example.com/v1/chat/completions -d '{"messages":[...]}'
[serve] vLLM 0.7, Llama 3.3 70B FP8, EAGLE-3 active
[decode] bs=8, accepted_tokens_per_step=3.2, acceptance_rate=0.76
[latency] first-token 42ms, full-response 980ms (620 tokens)
[cost] $0.34 per 1M output tokens at sustained throughput
Ship It
outputs/skill-inference-server.md descreve o entregável. Uma pilha de serviço mensurada com decodificação especulativa, um relatório completo de benchmark e uma implantação em K8s.
| Peso | Critério | Como é medido |
|---|---|---|
| 25 | Aumento de velocidade medido vs linha de base | Vazão de pelo menos 2,5x com qualidade equivalente em dois modelos |
| 20 | Taxa de aceitação em tráfego realista | Relatório de taxa de aceitação por distribuição |
| 20 | Disciplina de latência de cauda P99 | p99 com lotes de 1/8/32 com e sem especulação |
| 20 | Operações (Ops) | Implantação em K8s, HPA baseado no tempo de fila, atualização sem interrupções (smooth rollout) |
| 15 | Documentação e metodologia | Explicação clara do que mudou e por quê |
| 100 |
Exercises
Meça a degradação da taxa de aceitação quando o rascunho está uma versão atrás do target (ex: desvio Llama 3.3 -> 3.4). Construa um alerta de monitoramento.
Implemente o fallback ngram: se a aceitação do EAGLE-3 cair abaixo de um limite, mude para rascunhos ngram. Relate a melhoria de confiabilidade.
Execute um experimento controlado de MoE: o mesmo Qwen3-Coder-30B com injeção de ruído de roteamento versus sem. Meça a sensibilidade de aceitação do rascunho.
Estenda para H200 (141 GB). Relate a folga obtida no tamanho do modelo por réplica e se é possível servir um Llama 3.3 70B sem quantização.
Faça um benchmark da decodificação especulativa no TensorRT-LLM com o mesmo hardware H100. Relate em quais cenários ele supera o vLLM.
Key Terms
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| Draft model | "Especulador" | Modelo menor que propõe N tokens para verificação pelo modelo target |
| EAGLE-3 | "Arquitetura draft de 2026" | Cabeça draft treinada nos estados ocultos do target; taxa de aceitação aproximada de 75% |
| P-EAGLE | "Especulação paralela" | Árvore de ramos draft verificada em uma única passagem pelo target |
| Acceptance rate | "Taxa de acerto" | Fração de tokens do rascunho aceitos sem necessidade de reamostragem |
| Quantization | "FP8 / INT4" | Pesos com precisão reduzida para acomodar modelos maiores na memória da GPU |
| Queue wait | "Métrica de HPA" | Tempo que uma requisição espera na fila pendente antes do início da inferência |
| Speculators hub | "Rascunhos alinhados" | Hub Neural Magic da Red Hat de rascunhos EAGLE para modelos abertos comuns |
Further Reading
- vLLM EAGLE and P-EAGLE documentation — a pilha de serviço de referência
- P-EAGLE (AWS 2026) — artigo de decodificação especulativa paralela + integração
- SGLang SpecForge — pipeline de treinamento de cabeças draft
- Red Hat Speculators — hub de rascunhos alinhados
- TensorRT-LLM speculative decoding — alternativa do fabricante
- Fireworks.ai serving architecture — referência comercial
- EAGLE-3 paper (arXiv:2503.01840) — artigo científico do método
- vLLM repository — código e benchmarks