Phase 19 - Lesson 14

Capstone 14 — Servidor de Inferência com Decodificação Especulativa

O EAGLE-3 no vLLM 0.7 entrega de 2,5 a 3 vezes mais vazão (throughput) em tráfego real. O P-EAGLE (AWS 2026) levou a especulação paralela ainda mais longe. O SpecForge do SGLang treinou cabeças de rascunho (draft heads) em escala. O hub Speculators da Red Hat publicou rascunhos alinhados para modelos abertos comuns. O TensorRT-LLM tornou a decodificação especulativa nativa de primeira classe na NVIDIA. A pilha de serviço de produção para 2026 é o vLLM ou SGLang com rascunhos da família EAGLE, quantização FP8 ou INT4 e HPA (Autoscaler de Pod Horizontal) com base no tempo de espera em fila (queue-wait). Este capstone tem como objetivo servir dois modelos abertos atingindo pelo menos 2,5x a vazão de referência com um relatório completo de latência de cauda.

Type: Capstone Languages: Python (serviço), C++ / CUDA (inspeção de kernel), YAML (configurações) Prerequisites: Phase 3 (deep learning), Phase 7 (transformers), Phase 10 (LLMs from scratch), Phase 17 (infrastructure) Phases exercised: P3 · P7 · P10 · P17 Time: 30 horas

Problem

A decodificação especulativa tornou-se uma commodity em 2026. As cabeças de rascunho EAGLE-3 são treinadas nos estados ocultos (hidden states) do modelo de destino (target) e preveem N tokens adiante; o modelo target realiza a verificação em uma única passagem. Taxas de aceitação de 60-80% traduzem-se em 2-3x a vazão de ponta a ponta. O vLLM 0.7 integra isso de forma nativa. O SGLang + SpecForge fornece o pipeline de treinamento. O hub Speculators da Red Hat publica rascunhos alinhados para Llama 3.3 70B, Qwen3-Coder-30B MoE e GPT-OSS-120B.

A complexidade está nas operações de serviço, e não no modelo. A taxa de aceitação oscila de acordo com a distribuição do tráfego (ShareGPT vs código vs dados de domínio). A latência de cauda em caso de rejeição é pior do que sem especulação — você deve reportar o p99 em múltiplos tamanhos de lote (batch sizes), e não apenas os tokens/seg no estado estável. O custo por 1 milhão de tokens comparado com as APIs da Anthropic / OpenAI é a alavanca de credibilidade.

Concept

A decodificação especulativa possui duas camadas. Um modelo de rascunho (draft) (cabeça EAGLE-3, ngram ou modelo menor alinhado ao target) propõe k tokens candidatos por etapa. O modelo de destino (target) verifica todos os k em uma única passagem; qualquer prefixo aceito substitui o caminho ganancioso (greedy). A taxa de aceitação depende do alinhamento entre o rascunho e o target e da distribuição das entradas.

O EAGLE-3 supera rascunhos ngram na maior parte do tráfego. O P-EAGLE executa especulação paralela para árvores de rascunho mais profundas. A desvantagem: a latência P99 na rejeição é mais alta porque a etapa de verificação é maior. A configuração de serviço deve reportar a latência segmentada por tamanho de lote para evidenciar isso.

A implantação é feita no Kubernetes. O vLLM 0.7 executa uma réplica por GPU ou fragmento em paralelo de tensores (tensor-parallel). O HPA realiza o escalonamento automático baseado no tempo de espera em fila, em vez de CPU. Quantizações FP8 (Marlin) e INT4 (AWQ) mantêm a memória de GPU dentro do limite de uma H100 / H200. O relatório de ponta a ponta detalha a vazão, taxa de aceitação, p50/p99 com lotes de 1/8/32 e o custo por 1M tokens.

Architecture

entrada da requisição (ingress)
    |
    v
servidor vLLM (0.7) ou SGLang (0.4)
    |
    +-- draft: cabeças EAGLE-3 | P-EAGLE paralelo | fallback ngram
    +-- target: Llama 3.3 70B | Qwen3-Coder-30B | GPT-OSS-120B
    |     quantizado FP8-Marlin ou INT4-AWQ
    |
    v
etapa de verificação: processa lote de k tokens do draft no target
    |
    v (aceita prefixo; reamostra para o sufixo rejeitado)
    v
fluxo de tokens enviado de volta ao cliente
    |
    v
métricas Prometheus: vazão, taxa de aceitação, tempo de fila, latência p50/p99
    |
    v
HPA com base na métrica de tempo de fila

Stack

Serviço: vLLM 0.7 ou SGLang 0.4
Métodos especulativos: cabeças de rascunho EAGLE-3, especulação paralela P-EAGLE, fallback ngram
Treinamento do draft: SpecForge (SGLang) ou Red Hat Speculators
Modelos de destino (target): Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B
Quantização: FP8 (Marlin), INT4 AWQ
Implantação: Kubernetes + plugin de dispositivo NVIDIA; HPA com base na métrica de tempo de fila
Avaliação: ShareGPT, MT-Bench-v2, GSM8K, HumanEval para medição de aceitação em diferentes domínios
Referência: decodificação especulativa TensorRT-LLM para linha de base do fabricante

Build It

Preparação do modelo target. Escolha o Llama 3.3 70B. Quantize para FP8 via Marlin. Implante sob vLLM 0.7 em 1xH100 (ou 2x paralelos de tensores).
Origem do rascunho (draft). Obtenha uma cabeça de rascunho EAGLE-3 alinhada no Red Hat Speculators (ou treine uma via SpecForge). Carregue na configuração de decodificação especulativa do vLLM.
Números da linha de base. Sem especulação: tokens/s com lote 1/8/32, latência p50/p99, utilização de GPU. Publique.
Habilitar EAGLE-3. Mude a configuração; execute novamente o mesmo benchmark. Relate o ganho de velocidade (speedup), a taxa de aceitação e a variação de latência de cauda p99.
P-EAGLE. Ative a especulação paralela; meça a árvore de rascunho mais profunda contra o EAGLE-3 serial. Relate o ponto de inflexão onde o P-EAGLE ajuda versus prejudica.
Tráfego de domínio. Execute ShareGPT vs HumanEval vs tráfego específico do domínio no mesmo servidor. Meça a taxa de aceitação por distribuição. Identifique quando ocorre desvio nos rascunhos.
Segundo modelo target. Execute o mesmo pipeline no Qwen3-Coder-30B MoE. O rascunho é mais complexo devido ao ruído de roteamento do MoE. Relate os resultados.
HPA no K8s. Implante sob K8s com HPA rastreando queue_wait_ms. Demonstre o escalonamento horizontal quando a carga triplicar.
Comparação de custos. Calcule o custo por 1M de tokens contra o Anthropic Claude Sonnet 4.7 e o OpenAI GPT-5.4 no mesmo teste de avaliação. Publique.

Use It

$ curl https://infer.example.com/v1/chat/completions -d '{"messages":[...]}'
[serve]     vLLM 0.7, Llama 3.3 70B FP8, EAGLE-3 active
[decode]    bs=8, accepted_tokens_per_step=3.2, acceptance_rate=0.76
[latency]   first-token 42ms, full-response 980ms (620 tokens)
[cost]      $0.34 per 1M output tokens at sustained throughput

Ship It

outputs/skill-inference-server.md descreve o entregável. Uma pilha de serviço mensurada com decodificação especulativa, um relatório completo de benchmark e uma implantação em K8s.

Peso	Critério	Como é medido
25	Aumento de velocidade medido vs linha de base	Vazão de pelo menos 2,5x com qualidade equivalente em dois modelos
20	Taxa de aceitação em tráfego realista	Relatório de taxa de aceitação por distribuição
20	Disciplina de latência de cauda P99	p99 com lotes de 1/8/32 com e sem especulação
20	Operações (Ops)	Implantação em K8s, HPA baseado no tempo de fila, atualização sem interrupções (smooth rollout)
15	Documentação e metodologia	Explicação clara do que mudou e por quê
100

Exercises

Meça a degradação da taxa de aceitação quando o rascunho está uma versão atrás do target (ex: desvio Llama 3.3 -> 3.4). Construa um alerta de monitoramento.
Implemente o fallback ngram: se a aceitação do EAGLE-3 cair abaixo de um limite, mude para rascunhos ngram. Relate a melhoria de confiabilidade.
Execute um experimento controlado de MoE: o mesmo Qwen3-Coder-30B com injeção de ruído de roteamento versus sem. Meça a sensibilidade de aceitação do rascunho.
Estenda para H200 (141 GB). Relate a folga obtida no tamanho do modelo por réplica e se é possível servir um Llama 3.3 70B sem quantização.
Faça um benchmark da decodificação especulativa no TensorRT-LLM com o mesmo hardware H100. Relate em quais cenários ele supera o vLLM.

Key Terms

Termo	O que as pessoas dizem	O que realmente significa
Draft model	"Especulador"	Modelo menor que propõe N tokens para verificação pelo modelo target
EAGLE-3	"Arquitetura draft de 2026"	Cabeça draft treinada nos estados ocultos do target; taxa de aceitação aproximada de 75%
P-EAGLE	"Especulação paralela"	Árvore de ramos draft verificada em uma única passagem pelo target
Acceptance rate	"Taxa de acerto"	Fração de tokens do rascunho aceitos sem necessidade de reamostragem
Quantization	"FP8 / INT4"	Pesos com precisão reduzida para acomodar modelos maiores na memória da GPU
Queue wait	"Métrica de HPA"	Tempo que uma requisição espera na fila pendente antes do início da inferência
Speculators hub	"Rascunhos alinhados"	Hub Neural Magic da Red Hat de rascunhos EAGLE para modelos abertos comuns