Phase 17 - Lesson 07
TensorRT-LLM no Blackwell com FP8 e NVFP4
O TensorRT-LLM é exclusivo para NVIDIA, mas vence no Blackwell. No GB200 NVL72 com orquestração do Dynamo, o SemiAnalysis InferenceX mediu $0.012 por milhão de tokens em um modelo de 120B no Q1-Q2 de 2026, contra $0.09/M no H100 + vLLM — uma lacuna econômica de 7x. A stack é composta por três regimes de ponto flutuante combinados: o FP8 continua crítico para o KV cache e kernels de atenção porque possui a faixa dinâmica de que eles precisam; o NVFP4 (microescalonamento de 4 bits) lida com pesos e ativações; a predição de múltiplos tokens (MTP) e o prefill/decode desmembrados adicionam outros 2-3x no topo. O suporte ao modelo Day-0 carrega pesos FP4 diretamente, sem conversão pós-treinamento. O porém para as equipes de engenharia em 2026: o TRT-LLM é uma stack fechada da NVIDIA, portanto, adotá-lo significa trocar portabilidade por taxa de transferência (throughput). Faça as contas com o seu mix de modelos e hardware antes de se comprometer.
Tipo: Learn Idiomas: Python (stdlib, calculadora simples de custo e memória FP8/NVFP4) Pré-requisitos: Phase 17 · 04 (vLLM Serving Internals), Phase 10 · 13 (Quantization) Tempo: ~75 minutos
Objetivos de Aprendizado
- Explicar por que o FP8 continua crítico para o KV cache e atenção, mesmo quando os pesos estão em NVFP4.
- Calcular a pegada de HBM de um modelo de fronteira sob BF16, FP8 e NVFP4 e raciocinar sobre a origem da economia.
- Nomear os recursos específicos do Blackwell que o TRT-LLM explora (day-0 FP4, MTP, serviço desmembrado, primitivas all-to-all).
- Decidir quando o bloqueio (lock-in) de NVIDIA do TRT-LLM vale a diferença de custo de 7x vs vLLM no Hopper.
O Problema
A fronteira da economia de inferência em 2026 é "quantos tokens por dólar". A resposta depende de quatro escolhas combinadas: geração de hardware (Hopper H100/H200 vs Blackwell B200/GB200), precisão (BF16 → FP8 → NVFP4), mecanismo de serviço (vLLM vs SGLang vs TRT-LLM) e orquestração (simples vs desmembrada vs Dynamo).
No Hopper com vLLM, um MoE de 120B roda a ~$0.09 por milhão de tokens. No Blackwell com TRT-LLM + Dynamo, o mesmo modelo roda a ~$0.012 — 7x mais barato. Parte dessa diferença é hardware (o Blackwell possui de 11 a 15x o throughput de LLM por GPU vs Hopper). Parte é a stack: pesos FP4, rascunho (draft) MTP, prefill/decode desmembrados e NVLink 5 all-to-all para comunicação de especialistas de MoE.
Você não consegue replicar isso fora da stack da NVIDIA. Esse é o trade-off — portabilidade por economia. Compreender quais escolhas de stack fornecem qual parcela da diferença é o objetivo desta lição.
O Conceito
Por que o FP8 ainda é o piso para o KV cache
Um erro comum em 2026: assumir que o NVFP4 se aplica a tudo. Não se aplica. O KV cache precisa de FP8 (ponto flutuante de 8 bits) porque armazena chaves e valores de atenção que cobrem uma ampla faixa dinâmica. Quantizar o KV para FP4 causa perda catastrófica de precisão — a cauda da distribuição é cortada e as pontuações de atenção entram em colapso. Os bits de expoente do FP8 dão ao KV cache a faixa necessária.
O NVFP4 (2025-2026) se aplica a pesos e ativações. Microescalonamento: cada bloco de pesos tem seu próprio fator de escala, de modo que blocos pequenos podem abranger faixas dinâmicas diferentes sem perda de escala por tensor. Para ativações, o FP4 se mantém estável porque as ativações têm uma faixa estreita dentro de uma camada.
A configuração típica do Blackwell:
- Pesos: NVFP4 (microescalonamento de 4 bits).
- Ativações: NVFP4.
- KV cache: FP8.
- Acumulador de atenção: FP32 (estabilidade do softmax).
As primitivas específicas do Blackwell que o TRT-LLM usa
- Pesos FP4 Day-0: os provedores de modelos enviam pesos FP4 diretamente; o TRT-LLM os carrega sem conversão pós-treinamento. Sem etapas adicionais de AWQ / GPTQ para FP4.
- Predição de múltiplos tokens (MTP): mesma ideia do EAGLE (Phase 17 · 05), mas integrada na compilação do TRT-LLM.
- Serviço desmembrado: prefill e decode em pools de GPU separados, com KV cache transferido por NVLink ou InfiniBand. Mesma ideia do Dynamo (Phase 17 · 20).
- Primitivas de comunicação all-to-all: o NVLink 5 reduziu a latência de comunicação de especialistas de MoE em 3x vs Hopper. Os kernels de MoE do TRT-LLM são otimizados para isso.
- Microescalonamento NVFP4 + MXFP8: tratamento de fatores de escala acelerado por hardware nos Tensor Cores do Blackwell.
Os números que você deve memorizar
- HGX B200 a $0.02/M de tokens no GPT-OSS-120B via TRT-LLM.
- GB200 NVL72 a $0.012/M de tokens via Dynamo (orquestrando o TRT-LLM).
- H100 + vLLM ≈ $0.09/M de tokens em carga de trabalho comparável.
- Ganho de 2.8x em taxa de transferência em três meses de atualizações do TRT-LLM (2026).
- 11-15x de taxa de transferência de LLM por GPU, Blackwell vs Hopper.
- MLPerf Inference v6.0 (abril de 2026): Blackwell domina todas as tarefas enviadas.
O que o FP4 realmente custa em termos de qualidade
O NVFP4 é agressivo. Em cargas de trabalho focadas em raciocínio complexo (chain-of-thought, matemática, geração de código com contextos longos), os pesos em FP4 degradam visivelmente. A calibração por bloco mitiga, mas não elimina o problema. Equipes que implantam modelos de raciocínio frequentemente utilizam pesos FP8 + ativações FP4 como meio-termo, ou mantêm H200 com FP8 de ponta a ponta.
A regra: sempre valide a qualidade das tarefas em seu conjunto de avaliação (eval set) antes de se comprometer com pesos NVFP4.
Por que esta é uma decisão de bloqueio (lock-in) à NVIDIA
O TRT-LLM é composto por C++ + CUDA + kernels de código fechado. Os modelos precisam ser compilados para um SKU de GPU específico. Sem suporte para AMD, Intel ou ARM. Se a sua estratégia de infraestrutura for multivariada (multi-vendor), o TRT-LLM é inviável para a camada servida por TRT-LLM — mas você ainda pode servir a partir do vLLM em hardware misto. Se você for exclusivo para NVIDIA, a lacuna de 7x compensa o bloqueio.
Receita prática para 2026
Para uma conta anual de inferência superior a
O bônus da desagregação
O serviço desmembrado do TRT-LLM (pools separados de prefill e decode) é abordado detalhadamente na Phase 17 · 20. No Blackwell, o multiplicador se acumula: pesos FP4 × aceleração do MTP × alocação desmembrada × roteamento ciente de cache. O valor de 7x assume essa stack completa.
Use-o
O code/main.py calcula a pegada de HBM, a taxa de transferência de decodificação (regime limitado por largura de banda de memória) e $/M-tokens para um modelo em três stacks: H100 + BF16 + vLLM, H100 + FP8 + vLLM, B200 + NVFP4/FP8 + TRT-LLM. Execute-o para ver o efeito composto e a parcela que cada mudança contribui para a diferença total.
Entregue-o
Esta lição produz outputs/skill-trtllm-blackwell-advisor.md. Dada uma carga de trabalho, tamanho do modelo e volume anual de tokens, ela decide se a stack Blackwell + TRT-LLM vale o bloqueio de NVIDIA.
Exercícios
- Execute
code/main.py. Em um MoE de 120B com 30% de parâmetros ativos, calcule a taxa de transferência de decodificação limitada por largura de banda de memória no H100 BF16, H100 FP8 e B200 NVFP4/FP8. De onde vem o maior salto? - Um cliente gasta