Phase 19 - Lesson 14
Capstone 14 — Servidor de Inferencia con Decodificación Especulativa
EAGLE-3 en vLLM 0.7 entrega 2.5-3x rendimiento (throughput) en tráfico real. P-EAGLE (AWS 2026) llevó la especulación paralela aún más lejos. SpecForge de SGLang entrenó cabezas de borrador (draft heads) a escala. El hub Speculators de Red Hat publicó borradores alineados para modelos abiertos comunes. TensorRT-LLM hizo que la decodificación especulativa fuera nativa de primera clase en NVIDIA. La pila de servicio de producción para 2026 es vLLM o SGLang con borradores de la familia EAGLE, cuantización FP8 o INT4, y HPA (Autoscaler de Pod Horizontal) en tiempo de espera de cola (queue-wait). Este capstone tiene como objetivo servir dos modelos abiertos a 2.5x+ del rendimiento de referencia con un informe completo de latencia de cola.
Type: Capstone Languages: Python (servicio), C++ / CUDA (inspección de kernel), YAML (configuraciones) Prerequisites: Phase 3 (deep learning), Phase 7 (transformers), Phase 10 (LLMs from scratch), Phase 17 (infrastructure) Phases exercised: P3 · P7 · P10 · P17 Time: 30 horas
Problem
La decodificación especulativa se convirtió en un estándar básico (commodity) en 2026. Las cabezas de borrador EAGLE-3 se entrenan en los estados ocultos (hidden states) del modelo de destino (target) y predicen N tokens hacia adelante; el modelo target realiza la verificación en una sola pasada. Las tasas de aceptación del 60-80% se traducen en 2-3x de rendimiento de extremo a extremo. vLLM 0.7 integra esto de forma nativa. SGLang + SpecForge proporciona la canalización de entrenamiento. El hub Speculators de Red Hat publica borradores alineados para Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B.
La destreza radica en las operaciones de servicio, no en el modelo. La tasa de aceptación se desvía con la distribución del tráfico (ShareGPT vs código vs datos de dominio). La latencia de cola bajo rechazo es peor que sin especulación: debe informar el p99 a múltiples tamaños de lote (batch sizes), no solo los tokens/seg en estado estable. El costo por 1M de tokens frente a las API de Anthropic / OpenAI es la palanca de credibilidad.
Concept
La decodificación especulativa tiene dos capas. Un modelo de borrador (draft) (cabeza EAGLE-3, ngram o modelo menor alineado al target) propone k tokens candidatos por paso. El modelo de destino (target) verifica los k en una pasada; cualquier prefijo aceptado reemplaza la ruta codiciosa (greedy). La tasa de aceptación depende de la alineación entre borrador y target y de la distribución de las entradas.
EAGLE-3 supera a los borradores ngram en la mayoría del tráfico. P-EAGLE ejecuta especulación paralela para árboles de borrador más profundos. El compromiso (trade-off): la latencia P99 bajo rechazo es mayor porque la pasada de verificación es más grande. La configuración de servicio debe informar la latencia segmentada por tamaño de lote para evidenciar esto.
El despliegue es Kubernetes. vLLM 0.7 ejecuta una réplica por GPU o fragmento paralelo de tensores (tensor-parallel). El HPA escala automáticamente en función de la espera en cola en lugar de la CPU. Las cuantizaciones FP8 (Marlin) e INT4 (AWQ) mantienen la memoria de la GPU dentro del límite de una H100 / H200. El informe de extremo a extremo detalla el rendimiento, tasa de aceptación, p50/p99 a lotes de 1/8/32 y $/1M tokens.
Architecture
entrada de la solicitud (ingress)
|
v
servidor vLLM (0.7) o SGLang (0.4)
|
+-- draft: cabezas EAGLE-3 | P-EAGLE paralelo | fallback ngram
+-- target: Llama 3.3 70B | Qwen3-Coder-30B | GPT-OSS-120B
| cuantizado FP8-Marlin o INT4-AWQ
|
v
pasada de verificación: procesa lote de k tokens del draft en el target
|
v (acepta prefijo; re-muestrea para el sufijo rechazado)
v
flujo de tokens de vuelta al cliente
|
v
métricas Prometheus: rendimiento, tasa de aceptación, tiempo de cola, latencia p50/p99
|
v
HPA basado en la métrica de tiempo de cola
Stack
- Servicio: vLLM 0.7 o SGLang 0.4
- Métodos especulativos: cabezas de borrador EAGLE-3, especulación paralela P-EAGLE, fallback ngram
- Entrenamiento del draft: SpecForge (SGLang) o Red Hat Speculators
- Modelos de destino (target): Llama 3.3 70B, Qwen3-Coder-30B MoE, GPT-OSS-120B
- Cuantización: FP8 (Marlin), INT4 AWQ
- Despliegue: Kubernetes + plugin de dispositivo NVIDIA; HPA basado en la métrica de tiempo de cola
- Evaluación: ShareGPT, MT-Bench-v2, GSM8K, HumanEval para medir la aceptación en diferentes dominios
- Referencia: decodificación especulativa TensorRT-LLM para una línea de base del fabricante
Build It
Preparación del modelo target. Seleccione Llama 3.3 70B. Cuantice a FP8 a través de Marlin. Despliegue bajo vLLM 0.7 en 1xH100 (o 2x paralelos de tensores).
Origen del borrador (draft). Obtenga una cabeza de borrador EAGLE-3 alineada de Red Hat Speculators (o entrene una mediante SpecForge). Cárguela en la configuración de decodificación especulativa de vLLM.
Números de línea de base. Sin especulación: tokens/s en lotes de 1/8/32, latencia p50/p99, utilización de GPU. Publique.
Habilitar EAGLE-3. Cambie la configuración; vuelva a ejecutar el mismo benchmark. Informe velocidad ganada (speedup), tasa de aceptación y variación de latencia de cola p99.
P-EAGLE. Habilite la especulación paralela; mida el árbol de borrador más profundo frente a EAGLE-3 serial. Informe el punto de inflexión donde P-EAGLE ayuda frente a perjudica.
Tráfico de dominio. Ejecute ShareGPT vs HumanEval vs tráfico específico del dominio en el mismo servidor. Mida la tasa de aceptación por distribución. Identifique cuándo los borradores se desvían.
Segundo modelo target. Ejecute la misma canalización en Qwen3-Coder-30B MoE. El borrador es más complejo debido al ruido de enrutamiento de MoE. Informe.
HPA en K8s. Despliegue bajo K8s con HPA rastreando
queue_wait_ms. Demuestre el escalado horizontal cuando la carga se triplique.Comparación de costos. Calcule $/1M tokens frente a Anthropic Claude Sonnet 4.7 y OpenAI GPT-5.4 en la misma evaluación. Publique.
Use It
$ curl https://infer.example.com/v1/chat/completions -d '{"messages":[...]}'
[serve] vLLM 0.7, Llama 3.3 70B FP8, EAGLE-3 active
[decode] bs=8, accepted_tokens_per_step=3.2, acceptance_rate=0.76
[latency] first-token 42ms, full-response 980ms (620 tokens)
[cost] $0.34 per 1M output tokens at sustained throughput
Ship It
outputs/skill-inference-server.md describe el entregable. Una pila de servicio medida con decodificación especulativa, un informe completo de benchmark y un despliegue en K8s.
| Peso | Criterio | Cómo se mide |
|---|---|---|
| 25 | Velocidad ganada medida vs línea de base | 2.5x+ rendimiento con calidad equivalente en dos modelos |
| 20 | Tasa de aceptación en tráfico realista | Informe de tasa de aceptación por distribución |
| 20 | Disciplina de latencia de cola P99 | p99 en lotes de 1/8/32 con y sin especulación |
| 20 | Operaciones (Ops) | Despliegue en K8s, HPA en tiempo de cola, actualización progresiva sin problemas |
| 15 | Documentación y metodología | Explicación clara de qué cambió y por qué |
| 100 |
Exercises
Mida la degradación de la tasa de aceptación cuando el borrador está una versión detrás del target (por ejemplo, desviación Llama 3.3 -> 3.4). Diseñe una alerta de monitoreo.
Implemente fallback de ngram: si la aceptación de EAGLE-3 cae por debajo de un umbral, cambie a borradores ngram. Informe la mejora en la confiabilidad.
Ejecute un experimento MoE controlado: el mismo Qwen3-Coder-30B con ruido de enrutamiento inyectado frente a sin él. Mida la sensibilidad de aceptación del borrador.
Extienda a H200 (141 GB). Informe el margen de tamaño de modelo por réplica obtenido y si puede servir un Llama 3.3 70B sin cuantizar.
Realice un benchmark de la decodificación especulativa en TensorRT-LLM en el mismo hardware H100. Informe en qué casos supera a vLLM.
Key Terms
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| Draft model | "Especulador" | Modelo pequeño que propone N tokens para que el target los verifique |
| EAGLE-3 | "Arquitectura borrador de 2026" | Cabeza borrador entrenada en los estados ocultos del target; ~75% de aceptación |
| P-EAGLE | "Especulación paralela" | Árbol de ramas borrador verificado en una sola pasada del target |
| Acceptance rate | "Tasa de acierto" | Fracción de tokens borradores aceptados sin necesidad de re-muestreo |
| Quantization | "FP8 / INT4" | Pesos de menor precisión para alojar modelos más grandes en la memoria de la GPU |
| Queue wait | "Métrica de HPA" | Tiempo que una solicitud espera en la cola pendiente antes de que comience la inferencia |
| Speculators hub | "Borradores alineados" | Hub Neural Magic de Red Hat de borradores EAGLE para modelos abiertos comunes |
Further Reading
- vLLM EAGLE and P-EAGLE documentation — la pila de servicio de referencia
- P-EAGLE (AWS 2026) — artículo de decodificación especulativa paralela + integración
- SGLang SpecForge — canalización de entrenamiento de cabezas borrador
- Red Hat Speculators — hub de borradores alineados
- TensorRT-LLM speculative decoding — alternativa del fabricante
- Fireworks.ai serving architecture — referencia comercial
- EAGLE-3 paper (arXiv:2503.01840) — artículo científico del método
- vLLM repository — código y benchmarks