Phase 19 - Lesson 14

Capstone 14 — Servidor de Inferencia con Decodificación Especulativa

EAGLE-3 en vLLM 0.7 entrega 2.5-3x rendimiento (throughput) en tráfico real. P-EAGLE (AWS 2026) llevó la especulación paralela aún más lejos. SpecForge de SGLang entrenó cabezas de borrador (draft heads) a escala. El hub Speculators de Red Hat publicó borradores alineados para modelos abiertos comunes. TensorRT-LLM hizo que la decodificación especulativa fuera nativa de primera clase en NVIDIA. La pila de servicio de producción para 2026 es vLLM o SGLang con borradores de la familia EAGLE, cuantización FP8 o INT4, y HPA (Autoscaler de Pod Horizontal) en tiempo de espera de cola (queue-wait). Este capstone tiene como objetivo servir dos modelos abiertos a 2.5x+ del rendimiento de referencia con un informe completo de latencia de cola.

Type: Capstone Languages: Python (servicio), C++ / CUDA (inspección de kernel), YAML (configuraciones) Prerequisites: Phase 3 (deep learning), Phase 7 (transformers), Phase 10 (LLMs from scratch), Phase 17 (infrastructure) Phases exercised: P3 · P7 · P10 · P17 Time: 30 horas

Problem

La decodificación especulativa se convirtió en un estándar básico (commodity) en 2026. Las cabezas de borrador EAGLE-3 se entrenan en los estados ocultos (hidden states) del modelo de destino (target) y predicen N tokens hacia adelante; el modelo target realiza la verificación en una sola pasada. Las tasas de aceptación del 60-80% se traducen en 2-3x de rendimiento de extremo a extremo. vLLM 0.7 integra esto de forma nativa. SGLang + SpecForge proporciona la canalización de entrenamiento. El hub Speculators de Red Hat publica borradores alineados para Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B.

La destreza radica en las operaciones de servicio, no en el modelo. La tasa de aceptación se desvía con la distribución del tráfico (ShareGPT vs código vs datos de dominio). La latencia de cola bajo rechazo es peor que sin especulación: debe informar el p99 a múltiples tamaños de lote (batch sizes), no solo los tokens/seg en estado estable. El costo por 1M de tokens frente a las API de Anthropic / OpenAI es la palanca de credibilidad.

Concept

La decodificación especulativa tiene dos capas. Un modelo de borrador (draft) (cabeza EAGLE-3, ngram o modelo menor alineado al target) propone k tokens candidatos por paso. El modelo de destino (target) verifica los k en una pasada; cualquier prefijo aceptado reemplaza la ruta codiciosa (greedy). La tasa de aceptación depende de la alineación entre borrador y target y de la distribución de las entradas.

EAGLE-3 supera a los borradores ngram en la mayoría del tráfico. P-EAGLE ejecuta especulación paralela para árboles de borrador más profundos. El compromiso (trade-off): la latencia P99 bajo rechazo es mayor porque la pasada de verificación es más grande. La configuración de servicio debe informar la latencia segmentada por tamaño de lote para evidenciar esto.

El despliegue es Kubernetes. vLLM 0.7 ejecuta una réplica por GPU o fragmento paralelo de tensores (tensor-parallel). El HPA escala automáticamente en función de la espera en cola en lugar de la CPU. Las cuantizaciones FP8 (Marlin) e INT4 (AWQ) mantienen la memoria de la GPU dentro del límite de una H100 / H200. El informe de extremo a extremo detalla el rendimiento, tasa de aceptación, p50/p99 a lotes de 1/8/32 y $/1M tokens.

Architecture

entrada de la solicitud (ingress)
    |
    v
servidor vLLM (0.7) o SGLang (0.4)
    |
    +-- draft: cabezas EAGLE-3 | P-EAGLE paralelo | fallback ngram
    +-- target: Llama 3.3 70B | Qwen3-Coder-30B | GPT-OSS-120B
    |     cuantizado FP8-Marlin o INT4-AWQ
    |
    v
pasada de verificación: procesa lote de k tokens del draft en el target
    |
    v (acepta prefijo; re-muestrea para el sufijo rechazado)
    v
flujo de tokens de vuelta al cliente
    |
    v
métricas Prometheus: rendimiento, tasa de aceptación, tiempo de cola, latencia p50/p99
    |
    v
HPA basado en la métrica de tiempo de cola

Stack

Servicio: vLLM 0.7 o SGLang 0.4
Métodos especulativos: cabezas de borrador EAGLE-3, especulación paralela P-EAGLE, fallback ngram
Entrenamiento del draft: SpecForge (SGLang) o Red Hat Speculators
Modelos de destino (target): Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B
Cuantización: FP8 (Marlin), INT4 AWQ
Despliegue: Kubernetes + plugin de dispositivo NVIDIA; HPA basado en la métrica de tiempo de cola
Evaluación: ShareGPT, MT-Bench-v2, GSM8K, HumanEval para medir la aceptación en diferentes dominios
Referencia: decodificación especulativa TensorRT-LLM para una línea de base del fabricante

Build It

Preparación del modelo target. Seleccione Llama 3.3 70B. Cuantice a FP8 a través de Marlin. Despliegue bajo vLLM 0.7 en 1xH100 (o 2x paralelos de tensores).
Origen del borrador (draft). Obtenga una cabeza de borrador EAGLE-3 alineada de Red Hat Speculators (o entrene una mediante SpecForge). Cárguela en la configuración de decodificación especulativa de vLLM.
Números de línea de base. Sin especulación: tokens/s en lotes de 1/8/32, latencia p50/p99, utilización de GPU. Publique.
Habilitar EAGLE-3. Cambie la configuración; vuelva a ejecutar el mismo benchmark. Informe velocidad ganada (speedup), tasa de aceptación y variación de latencia de cola p99.
P-EAGLE. Habilite la especulación paralela; mida el árbol de borrador más profundo frente a EAGLE-3 serial. Informe el punto de inflexión donde P-EAGLE ayuda frente a perjudica.
Tráfico de dominio. Ejecute ShareGPT vs HumanEval vs tráfico específico del dominio en el mismo servidor. Mida la tasa de aceptación por distribución. Identifique cuándo los borradores se desvían.
Segundo modelo target. Ejecute la misma canalización en Qwen3-Coder-30B MoE. El borrador es más complejo debido al ruido de enrutamiento de MoE. Informe.
HPA en K8s. Despliegue bajo K8s con HPA rastreando queue_wait_ms. Demuestre el escalado horizontal cuando la carga se triplique.
Comparación de costos. Calcule $/1M tokens frente a Anthropic Claude Sonnet 4.7 y OpenAI GPT-5.4 en la misma evaluación. Publique.

Use It

$ curl https://infer.example.com/v1/chat/completions -d '{"messages":[...]}'
[serve]     vLLM 0.7, Llama 3.3 70B FP8, EAGLE-3 active
[decode]    bs=8, accepted_tokens_per_step=3.2, acceptance_rate=0.76
[latency]   first-token 42ms, full-response 980ms (620 tokens)
[cost]      $0.34 per 1M output tokens at sustained throughput

Ship It

outputs/skill-inference-server.md describe el entregable. Una pila de servicio medida con decodificación especulativa, un informe completo de benchmark y un despliegue en K8s.

Peso	Criterio	Cómo se mide
25	Velocidad ganada medida vs línea de base	2.5x+ rendimiento con calidad equivalente en dos modelos
20	Tasa de aceptación en tráfico realista	Informe de tasa de aceptación por distribución
20	Disciplina de latencia de cola P99	p99 en lotes de 1/8/32 con y sin especulación
20	Operaciones (Ops)	Despliegue en K8s, HPA en tiempo de cola, actualización progresiva sin problemas
15	Documentación y metodología	Explicación clara de qué cambió y por qué
100

Exercises

Mida la degradación de la tasa de aceptación cuando el borrador está una versión detrás del target (por ejemplo, desviación Llama 3.3 -> 3.4). Diseñe una alerta de monitoreo.
Implemente fallback de ngram: si la aceptación de EAGLE-3 cae por debajo de un umbral, cambie a borradores ngram. Informe la mejora en la confiabilidad.
Ejecute un experimento MoE controlado: el mismo Qwen3-Coder-30B con ruido de enrutamiento inyectado frente a sin él. Mida la sensibilidad de aceptación del borrador.
Extienda a H200 (141 GB). Informe el margen de tamaño de modelo por réplica obtenido y si puede servir un Llama 3.3 70B sin cuantizar.
Realice un benchmark de la decodificación especulativa en TensorRT-LLM en el mismo hardware H100. Informe en qué casos supera a vLLM.

Key Terms

Término	Lo que la gente dice	Lo que realmente significa
Draft model	"Especulador"	Modelo pequeño que propone N tokens para que el target los verifique
EAGLE-3	"Arquitectura borrador de 2026"	Cabeza borrador entrenada en los estados ocultos del target; ~75% de aceptación
P-EAGLE	"Especulación paralela"	Árbol de ramas borrador verificado en una sola pasada del target
Acceptance rate	"Tasa de acierto"	Fracción de tokens borradores aceptados sin necesidad de re-muestreo
Quantization	"FP8 / INT4"	Pesos de menor precisión para alojar modelos más grandes en la memoria de la GPU
Queue wait	"Métrica de HPA"	Tiempo que una solicitud espera en la cola pendiente antes de que comience la inferencia
Speculators hub	"Borradores alineados"	Hub Neural Magic de Red Hat de borradores EAGLE para modelos abiertos comunes