Phase 17 - Lesson 17

Disaggregated Prefill/Decode — NVIDIA Dynamo e llm-d

O prefill é limitado por computação (compute-bound); o decode é limitado por memória (memory-bound). Executar ambos na mesma GPU desperdiça um dos recursos. A desagregação divide-os em pools separados e transfere o cache KV entre eles via NIXL (RDMA/InfiniBand ou fallback para TCP). O NVIDIA Dynamo (anúncio da GTC 2025, 1.0 GA) fica acima do vLLM/SGLang/TRT-LLM — seu Planner Profiler + SLA Planner ajustam automaticamente as proporções de prefill:decode para atender aos SLOs. A NVIDIA publica ganhos de throughput nessa faixa — developer.nvidia.com (06/2025) mostra uma melhoria de ~6x para DeepSeek-R1 MoE em GB200 NVL72 + Dynamo no regime de média latência, e a página do produto Dynamo (developer.nvidia.com, sem data) anuncia até 50x mais throughput de MoE em GB300 NVL72 + Dynamo vs Hopper. O número de "30x" é um agregado da comunidade entre relatórios da stack Blackwell + Dynamo + DeepSeek-R1; não encontramos uma única fonte primária declarando exatamente 30x, portanto, trate-o como uma alegação direcional. O llm-d (Red Hat + AWS) é nativo de Kubernetes: prefill / decode / roteador como Services independentes com HPA por função. O llm-d 0.5 adiciona descarregamento (offloading) hierárquico de KV, roteamento de LoRA ciente de cache, rede UCCL e escala até zero (scale-to-zero). Aspectos econômicos: um rollup interno de múltiplas divulgações de clientes sugere economias de 30-40% em gastos de inferência na faixa de

Termo	O que dizem	O que realmente significa
Serviço desagregado	"separar prefill/decode"	Pools de GPU separados para cada fase
NIXL	"transporte da NVIDIA"	Transferência de KV inter-nós do Dynamo (RDMA/TCP)
NVIDIA Dynamo	"o orquestrador"	Coordenador acima da stack para vLLM/SGLang/TRT-LLM
llm-d	"nativo de Kubernetes"	Stack desagregada K8s da Red Hat + AWS
Planner Profiler	"auto-configuração do Dynamo"	Mede a carga de trabalho, configura proporções de pools
SLA Planner	"política do Dynamo"	Combina taxas de prefill:decode para atingir SLOs
`packDomain: rack`	"topologia do llm-d"	Agrupa prefill+decode no mesmo rack para KV rápido
UCCL	"coletivo unificado"	Camada de rede do llm-d 0.5 para escala até zero
Roteamento de especialistas MoE	"especialista por token"	Padrão do DeepSeek-V3; a desagregação ajuda

Disaggregated Prefill/Decode — NVIDIA Dynamo e llm-d

Objetivos de Aprendizado

O Problema

O Conceito

Por que os gargalos diferem

A arquitetura

Dynamo vs llm-d

Aspectos Econômicos

Quando NÃO desagregar

O roteador integra-se com a Fase 17 · 11

MoE na Blackwell é onde os números reais estão

Números que você deve lembrar

Use

Coloque em Produção

Exercícios

Termos-Chave

Leituras Adicionais