Phase 17 - Lesson 07

TensorRT-LLM no Blackwell com FP8 e NVFP4

O TensorRT-LLM é exclusivo para NVIDIA, mas vence no Blackwell. No GB200 NVL72 com orquestração do Dynamo, o SemiAnalysis InferenceX mediu $0.012 por milhão de tokens em um modelo de 120B no Q1-Q2 de 2026, contra $0.09/M no H100 + vLLM — uma lacuna econômica de 7x. A stack é composta por três regimes de ponto flutuante combinados: o FP8 continua crítico para o KV cache e kernels de atenção porque possui a faixa dinâmica de que eles precisam; o NVFP4 (microescalonamento de 4 bits) lida com pesos e ativações; a predição de múltiplos tokens (MTP) e o prefill/decode desmembrados adicionam outros 2-3x no topo. O suporte ao modelo Day-0 carrega pesos FP4 diretamente, sem conversão pós-treinamento. O porém para as equipes de engenharia em 2026: o TRT-LLM é uma stack fechada da NVIDIA, portanto, adotá-lo significa trocar portabilidade por taxa de transferência (throughput). Faça as contas com o seu mix de modelos e hardware antes de se comprometer.

Tipo: Learn Idiomas: Python (stdlib, calculadora simples de custo e memória FP8/NVFP4) Pré-requisitos: Phase 17 · 04 (vLLM Serving Internals), Phase 10 · 13 (Quantization) Tempo: ~75 minutos

Objetivos de Aprendizado

  • Explicar por que o FP8 continua crítico para o KV cache e atenção, mesmo quando os pesos estão em NVFP4.
  • Calcular a pegada de HBM de um modelo de fronteira sob BF16, FP8 e NVFP4 e raciocinar sobre a origem da economia.
  • Nomear os recursos específicos do Blackwell que o TRT-LLM explora (day-0 FP4, MTP, serviço desmembrado, primitivas all-to-all).
  • Decidir quando o bloqueio (lock-in) de NVIDIA do TRT-LLM vale a diferença de custo de 7x vs vLLM no Hopper.

O Problema

A fronteira da economia de inferência em 2026 é "quantos tokens por dólar". A resposta depende de quatro escolhas combinadas: geração de hardware (Hopper H100/H200 vs Blackwell B200/GB200), precisão (BF16 → FP8 → NVFP4), mecanismo de serviço (vLLM vs SGLang vs TRT-LLM) e orquestração (simples vs desmembrada vs Dynamo).

No Hopper com vLLM, um MoE de 120B roda a ~$0.09 por milhão de tokens. No Blackwell com TRT-LLM + Dynamo, o mesmo modelo roda a ~$0.012 — 7x mais barato. Parte dessa diferença é hardware (o Blackwell possui de 11 a 15x o throughput de LLM por GPU vs Hopper). Parte é a stack: pesos FP4, rascunho (draft) MTP, prefill/decode desmembrados e NVLink 5 all-to-all para comunicação de especialistas de MoE.

Você não consegue replicar isso fora da stack da NVIDIA. Esse é o trade-off — portabilidade por economia. Compreender quais escolhas de stack fornecem qual parcela da diferença é o objetivo desta lição.

O Conceito

Por que o FP8 ainda é o piso para o KV cache

Um erro comum em 2026: assumir que o NVFP4 se aplica a tudo. Não se aplica. O KV cache precisa de FP8 (ponto flutuante de 8 bits) porque armazena chaves e valores de atenção que cobrem uma ampla faixa dinâmica. Quantizar o KV para FP4 causa perda catastrófica de precisão — a cauda da distribuição é cortada e as pontuações de atenção entram em colapso. Os bits de expoente do FP8 dão ao KV cache a faixa necessária.

O NVFP4 (2025-2026) se aplica a pesos e ativações. Microescalonamento: cada bloco de pesos tem seu próprio fator de escala, de modo que blocos pequenos podem abranger faixas dinâmicas diferentes sem perda de escala por tensor. Para ativações, o FP4 se mantém estável porque as ativações têm uma faixa estreita dentro de uma camada.

A configuração típica do Blackwell:

  • Pesos: NVFP4 (microescalonamento de 4 bits).
  • Ativações: NVFP4.
  • KV cache: FP8.
  • Acumulador de atenção: FP32 (estabilidade do softmax).

As primitivas específicas do Blackwell que o TRT-LLM usa

  • Pesos FP4 Day-0: os provedores de modelos enviam pesos FP4 diretamente; o TRT-LLM os carrega sem conversão pós-treinamento. Sem etapas adicionais de AWQ / GPTQ para FP4.
  • Predição de múltiplos tokens (MTP): mesma ideia do EAGLE (Phase 17 · 05), mas integrada na compilação do TRT-LLM.
  • Serviço desmembrado: prefill e decode em pools de GPU separados, com KV cache transferido por NVLink ou InfiniBand. Mesma ideia do Dynamo (Phase 17 · 20).
  • Primitivas de comunicação all-to-all: o NVLink 5 reduziu a latência de comunicação de especialistas de MoE em 3x vs Hopper. Os kernels de MoE do TRT-LLM são otimizados para isso.
  • Microescalonamento NVFP4 + MXFP8: tratamento de fatores de escala acelerado por hardware nos Tensor Cores do Blackwell.

Os números que você deve memorizar

  • HGX B200 a $0.02/M de tokens no GPT-OSS-120B via TRT-LLM.
  • GB200 NVL72 a $0.012/M de tokens via Dynamo (orquestrando o TRT-LLM).
  • H100 + vLLM ≈ $0.09/M de tokens em carga de trabalho comparável.
  • Ganho de 2.8x em taxa de transferência em três meses de atualizações do TRT-LLM (2026).
  • 11-15x de taxa de transferência de LLM por GPU, Blackwell vs Hopper.
  • MLPerf Inference v6.0 (abril de 2026): Blackwell domina todas as tarefas enviadas.

O que o FP4 realmente custa em termos de qualidade

O NVFP4 é agressivo. Em cargas de trabalho focadas em raciocínio complexo (chain-of-thought, matemática, geração de código com contextos longos), os pesos em FP4 degradam visivelmente. A calibração por bloco mitiga, mas não elimina o problema. Equipes que implantam modelos de raciocínio frequentemente utilizam pesos FP8 + ativações FP4 como meio-termo, ou mantêm H200 com FP8 de ponta a ponta.

A regra: sempre valide a qualidade das tarefas em seu conjunto de avaliação (eval set) antes de se comprometer com pesos NVFP4.

Por que esta é uma decisão de bloqueio (lock-in) à NVIDIA

O TRT-LLM é composto por C++ + CUDA + kernels de código fechado. Os modelos precisam ser compilados para um SKU de GPU específico. Sem suporte para AMD, Intel ou ARM. Se a sua estratégia de infraestrutura for multivariada (multi-vendor), o TRT-LLM é inviável para a camada servida por TRT-LLM — mas você ainda pode servir a partir do vLLM em hardware misto. Se você for exclusivo para NVIDIA, a lacuna de 7x compensa o bloqueio.

Receita prática para 2026

Para uma conta anual de inferência superior a

00M, rodar no Hopper + vLLM deixa de 7 a 10x na mesa. Migre as cargas de trabalho dominantes em termos de custo para Blackwell + TRT-LLM + Dynamo. Mantenha a camada de experimentação no H100 + vLLM para agilidade na iteração de modelos. Valide a qualidade em cada modelo convertido para NVFP4 antes da produção.

O bônus da desagregação

O serviço desmembrado do TRT-LLM (pools separados de prefill e decode) é abordado detalhadamente na Phase 17 · 20. No Blackwell, o multiplicador se acumula: pesos FP4 × aceleração do MTP × alocação desmembrada × roteamento ciente de cache. O valor de 7x assume essa stack completa.

Use-o

O code/main.py calcula a pegada de HBM, a taxa de transferência de decodificação (regime limitado por largura de banda de memória) e $/M-tokens para um modelo em três stacks: H100 + BF16 + vLLM, H100 + FP8 + vLLM, B200 + NVFP4/FP8 + TRT-LLM. Execute-o para ver o efeito composto e a parcela que cada mudança contribui para a diferença total.

Entregue-o

Esta lição produz outputs/skill-trtllm-blackwell-advisor.md. Dada uma carga de trabalho, tamanho do modelo e volume anual de tokens, ela decide se a stack Blackwell + TRT-LLM vale o bloqueio de NVIDIA.

Exercícios

  1. Execute code/main.py. Em um MoE de 120B com 30% de parâmetros ativos, calcule a taxa de transferência de decodificação limitada por largura de banda de memória no H100 BF16, H100 FP8 e B200 NVFP4/FP8. De onde vem o maior salto?
  2. Um cliente gasta
M/ano em H100 + vLLM. Qual é o número de equilíbrio (break-even) de GPUs Blackwell que ele precisa comprar para amortizar uma migração para o TRT-LLM em 12 meses, dada a lacuna econômica de 7x?
  • Você observa a precisão cair 3 pontos no MATH após a conversão de pesos para NVFP4. Nomeie dois caminhos de recuperação: um focado em qualidade (manter pesos em FP8) e outro focado em custo (calibrar com dados do próprio domínio).
  • Leia os resultados do MLPerf v6.0 inference. Qual tarefa apresenta a menor diferença de desempenho do Blackwell sobre o Hopper e por quê?
  • Calcule a HBM necessária para um modelo de 405B com pesos NVFP4 + KV cache em FP8 com contexto de 128k. Ele cabe em um único nó GB200 NVL72?
  • Termos-Chave

    Termo O que as pessoas dizem O que realmente significa
    FP8 "ponto flutuante de oito bits" Ponto flutuante de 8 bits; usado para KV cache e atenção devido à faixa dinâmica
    NVFP4 "micro de quatro bits" Formato de ponto flutuante com microescalonamento de 4 bits da NVIDIA; pesos e ativações no Blackwell
    MXFP8 "MX oito" Variante de FP8 com microescalonamento; acelerado por hardware nos Tensor Cores do Blackwell
    Day-0 FP4 "enviar pesos FP4" Provedores de modelos lançam pesos já em FP4; sem etapa de conversão pós-treinamento
    MTP "predição de múltiplos tokens" Rascunho de decodificação especulativa integrado do TRT-LLM (Phase 17 · 05)
    Serviço desmembrado "dividir prefill/decode" Prefill e decode em pools de GPU separados; KV transferido sobre NVLink/IB
    All-to-all "comunicação de especialistas de MoE" Padrão de comunicação que roteia tokens para GPUs especialistas; o NVLink 5 reduz a latência em 3x
    InferenceX "benchmarking de inferência da SemiAnalysis" O benchmark de custo por token aceito pelo setor em 2026

    Leituras Adicionais

    0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).