Phase 17 - Lesson 17

Disaggregated Prefill/Decode — NVIDIA Dynamo y llm-d

El prefill está limitado por cómputo (compute-bound); el decode está limitado por memoria (memory-bound). Ejecutar ambos en la misma GPU desperdicia un recurso. La desagregación los divide en pools separados y traslada el caché KV entre ellos a través de NIXL (RDMA/InfiniBand o fallback de TCP). NVIDIA Dynamo (anuncio de GTC 2025, 1.0 GA) se sitúa por encima de vLLM/SGLang/TRT-LLM — su Planner Profiler + SLA Planner ajustan automáticamente las proporciones de prefill:decode para cumplir con los SLO. NVIDIA publica ganancias de rendimiento (throughput) en este rango — developer.nvidia.com (06/2025) muestra una mejora de ~6x para DeepSeek-R1 MoE en GB200 NVL72 + Dynamo en el régimen de latencia media, y la página del producto Dynamo (developer.nvidia.com, sin fecha) anuncia hasta 50x de rendimiento MoE en GB300 NVL72 + Dynamo vs Hopper. La cifra de "30x" es un agregado de la comunidad en los informes de la stack Blackwell + Dynamo + DeepSeek-R1; no hemos encontrado una sola fuente primaria que declare exactamente 30x, por lo que debe tratarse como una afirmación direccional. llm-d (Red Hat + AWS) es nativo de Kubernetes: prefill / decode / enrutador como Services independientes con HPA por rol. llm-d 0.5 agrega descarga (offloading) jerárquica de KV, enrutamiento LoRA consciente de caché, red UCCL y escala a cero (scale-to-zero). Aspectos económicos: un consolidado interno de múltiples divulgaciones de clientes sugiere ahorros del 30–40% en un gasto de inferencia de la clase de

Término	Lo que la gente dice	Lo que realmente significa
Servicio desagregado	"separar prefill/decode"	Pools de GPU separados para cada fase
NIXL	"transporte de NVIDIA"	Transferencia de KV inter-nodos de Dynamo (RDMA/TCP)
NVIDIA Dynamo	"el orquestador"	Coordinador por encima de la stack para vLLM/SGLang/TRT-LLM
llm-d	"nativo de Kubernetes"	Stack desagregada de K8s de Red Hat + AWS
Planner Profiler	"auto-configuración de Dynamo"	Mide la carga de trabajo, configura proporciones de pools
SLA Planner	"política de Dynamo"	Adapta las proporciones de prefill:decode para cumplir con los SLO
`packDomain: rack`	"topologia de llm-d"	Agrupa prefill+decode en el mismo rack para transferencia rápida de KV
UCCL	"colectivo unificado"	Capa de red de llm-d 0.5 para escala a cero
Enrutamiento de expertos MoE	"experto por token"	Patrón de DeepSeek-V3; la desagregación ayuda

Disaggregated Prefill/Decode — NVIDIA Dynamo y llm-d

Objetivos de Aprendizaje

El Problema

El Concepto

Por qué difieren los cuellos de botella

La arquitectura

Dynamo vs llm-d

Aspectos Económicos

Cuándo NO desagregar

El enrutador se integra con la Fase 17 · 11

MoE en Blackwell es donde están los números reales

Números que debe recordar

Uso

Puesta en Producción

Ejercicios

Términos Clave

Lecturas Adicionales