Phase 17 - Lesson 07

TensorRT-LLM on Blackwell with FP8 and NVFP4

TensorRT-LLM es exclusivo de NVIDIA pero gana en Blackwell. En GB200 NVL72 con orquestación de Dynamo, SemiAnalysis InferenceX midió $0.012 por millón de tokens en un modelo de 120B en Q1-Q2 de 2026, frente a $0.09/M en H100 + vLLM, una brecha económica de 7x. La pila consta de tres regímenes de punto flotante combinados: FP8 sigue siendo crítico para la caché KV y los kernels de atención porque tiene el rango dinámico que necesitan; NVFP4 (microescalado de 4 bits) maneja pesos y activaciones; la predicción de múltiples tokens (MTP) y el prefill/decode desagregados agregan otro 2-3x adicional. El soporte de modelo Day-0 carga pesos FP4 directamente sin conversión posterior al entrenamiento. El inconveniente para los equipos de ingeniería en 2026: TRT-LLM es una pila cerrada de NVIDIA, por lo que adoptarla implica cambiar portabilidad por rendimiento (throughput). Haga los cálculos sobre su combinación de modelos y hardware antes de comprometerse.

Tipo: Learn Idiomas: Python (stdlib, calculadora básica de costo y memoria FP8/NVFP4) Prerrequisitos: Phase 17 · 04 (vLLM Serving Internals), Phase 10 · 13 (Quantization) Tiempo: ~75 minutos

Objetivos de Aprendizaje

  • Explicar por qué FP8 sigue siendo crítico para la caché KV y la atención incluso cuando los pesos están en NVFP4.
  • Calcular la huella de HBM de un modelo de frontera bajo BF16, FP8 y NVFP4 y razonar de dónde provienen los ahorros.
  • Nombrar las características específicas de Blackwell que aprovecha TRT-LLM (day-0 FP4, MTP, servicio desagregado, primitivas all-to-all).
  • Decidir cuándo el bloqueo de NVIDIA de TRT-LLM vale la brecha de costo de 7x frente a vLLM en Hopper.

El Problema

La frontera de la economía de inferencia en 2026 es "cuántos tokens por dólar". La respuesta depende de cuatro elecciones combinadas: generación de hardware (Hopper H100/H200 vs Blackwell B200/GB200), precisión (BF16 → FP8 → NVFP4), motor de servicio (vLLM vs SGLang vs TRT-LLM) y orquestación (simple vs desagregada vs Dynamo).

En Hopper con vLLM, un MoE de 120B se ejecuta a ~$0.09 por millón de tokens. En Blackwell con TRT-LLM + Dynamo, el mismo modelo se ejecuta a ~$0.012, es decir, 7x más barato. Parte de esa brecha es el hardware (Blackwell ofrece de 11 a 15x de rendimiento de LLM por GPU frente a Hopper). Otra parte es la pila: pesos FP4, borrador (draft) MTP, prefill/decode desagregado y NVLink 5 all-to-all para la comunicación de expertos de MoE.

No se puede replicar esto fuera de la pila de NVIDIA. Ese es el compromiso: portabilidad por economía. El propósito de esta lección es comprender qué opciones de la pila aportan qué proporción de la brecha.

El Concepto

Por qué FP8 sigue siendo el mínimo para la caché KV

Un error común en 2026: asumir que NVFP4 se aplica en todas partes. No es así. La caché KV necesita FP8 (punto flotante de 8 bits) porque almacena claves y valores de atención que abarcan un amplio rango dinámico. Cuantizar KV a FP4 provoca una pérdida catastrófica de precisión: la cola de la distribución cae y las puntuaciones de atención colapsan. Los bits de exponente de FP8 le dan a la caché KV el rango que necesita.

NVFP4 (2025-2026) se aplica a pesos y activaciones. Microescalado: cada bloque de pesos tiene su propio factor de escala para que los bloques pequeños puedan abarcar diferentes rangos dinámicos sin pérdida de escala por tensor. Para las activaciones, FP4 se mantiene porque las activaciones tienen un rango estrecho dentro de una capa.

La configuración típica de Blackwell:

  • Pesos: NVFP4 (microescalado de 4 bits).
  • Activaciones: NVFP4.
  • Caché KV: FP8.
  • Acumulador de atención: FP32 (estabilidad de softmax).

Las primitivas específicas de Blackwell que utiliza TRT-LLM

  • Pesos FP4 Day-0: los proveedores de modelos envían pesos FP4 directamente; TRT-LLM los carga sin conversión posterior al entrenamiento. Sin paso de AWQ / GPTQ para FP4.
  • Predicción de múltiples tokens (MTP): la misma idea que EAGLE (Phase 17 · 05) pero integrada en la compilación de TRT-LLM.
  • Servicio desagregado: prefill y decode en grupos de GPU separados, con transferencia de caché KV a través de NVLink o InfiniBand. La misma idea que Dynamo (Phase 17 · 20).
  • Primitivas de comunicación all-to-all: NVLink 5 redujo la latencia de comunicación de expertos de MoE en 3x frente a Hopper. Los kernels MoE de TRT-LLM están optimizados para esto.
  • Microescalado NVFP4 + MXFP8: manejo de factores de escala acelerado por hardware en los Tensor Cores de Blackwell.

Los números que debe memorizar

  • HGX B200 a $0.02/M de tokens en GPT-OSS-120B a través de TRT-LLM.
  • GB200 NVL72 a $0.012/M de tokens a través de Dynamo (orquestando TRT-LLM).
  • H100 + vLLM ≈ $0.09/M de tokens en una carga de trabajo comparable.
  • Ganancia de 2.8x en rendimiento en tres meses de actualizaciones de TRT-LLM (2026).
  • 11-15x de rendimiento de LLM por GPU, Blackwell frente a Hopper.
  • MLPerf Inference v6.0 (abril de 2026): Blackwell domina cada tarea enviada.

Lo que FP4 realmente cuesta en calidad

NVFP4 es agresivo. En cargas de trabajo que requieren mucho razonamiento (chain-of-thought, matemáticas, generación de código con contextos largos), los pesos en FP4 se degradan visiblemente. La calibración por bloque mitiga pero no elimina esto. Los equipos que envían modelos de razonamiento a menudo utilizan pesos FP8 + activaciones FP4 como un término medio, o se quedan con H200 usando FP8 en todo el proceso.

La regla: valide siempre la calidad de las tareas en su conjunto de evaluación (eval set) antes de comprometerse con pesos NVFP4.

Por qué esta es una decisión de bloqueo (lock-in) de NVIDIA

TRT-LLM es C++ + CUDA + kernels de código cerrado. Los modelos deben compilarse para un SKU de GPU específico. Sin AMD, sin Intel, sin ARM. Si su estrategia de infraestructura es de múltiples proveedores (multi-vendor), TRT-LLM no es una opción para el nivel servido por TRT-LLM; aún puede servir desde vLLM en hardware mixto. Si es exclusivo de NVIDIA, la brecha de 7x paga el costo del bloqueo.

Receta práctica para 2026

Para una factura de inferencia anual de más de

00M, ejecutar en Hopper + vLLM deja entre 7 y 10x en la mesa. Migre las cargas de trabajo dominantes en costos a Blackwell + TRT-LLM + Dynamo. Mantenga el nivel de experimentación en H100 + vLLM para la velocidad de iteración del modelo. Valide la calidad en cada modelo convertido a NVFP4 antes de la producción.

El beneficio de la desagregación

El servicio desagregado de TRT-LLM (grupos separados de prefill y decode) se analiza en detalle en Phase 17 · 20. En Blackwell, el multiplicador se acumula: pesos FP4 × aceleración MTP × ubicación desagregada × enrutamiento consciente de la la caché. La cifra de 7x asume esta pila completa.

Utilízalo

code/main.py calcula la huella de HBM, el rendimiento de decodificación (regimen limitado por ancho de banda de memoria) y $/M-tokens para un modelo en tres pilas: H100 + BF16 + vLLM, H100 + FP8 + vLLM, B200 + NVFP4/FP8 + TRT-LLM. Ejecútelo para ver el efecto compuesto y la proporción que aporta cada cambio a la brecha.

Entrégalo

Esta lección produce outputs/skill-trtllm-blackwell-advisor.md. Dada una carga de trabajo, el tamaño del modelo y el volumen anual de tokens, decide si la pila Blackwell + TRT-LLM vale el bloqueo de NVIDIA.

Ejercicios

  1. Ejecute code/main.py. En un MoE de 120B con 30% de parámetros activos, calcule el rendimiento de decodificación limitado por el ancho de banda de memoria en H100 BF16, H100 FP8 y B200 NVFP4/FP8. ¿De dónde viene el mayor salto?
  2. Un cliente gasta
M/año en H100 + vLLM. ¿Cuál es la cantidad de equilibrio (break-even) de GPUs Blackwell que necesita comprar para amortizar una migración a TRT-LLM en 12 meses, dada la brecha económica de 7x?
  • Observa una caída de precisión de 3 puntos en MATH tras la conversión de pesos a NVFP4. Nombre dos rutas de recuperación: una orientada a la calidad (mantener pesos FP8) y otra orientada al costo (calibrar con datos del propio dominio).
  • Lea los resultados de MLPerf v6.0 inference. ¿Qué tarea tiene la brecha más pequeña de Blackwell sobre Hopper y por qué?
  • Calcule la HBM necesaria para un modelo de 405B con pesos NVFP4 + caché KV en FP8 a un contexto de 128k. ¿Cabe en un solo nodo GB200 NVL72?
  • Términos Clave

    Término Lo que la gente dice Lo que realmente significa
    FP8 "punto flotante de ocho bits" Punto flotante de 8 bits; utilizado para caché KV y atención debido al rango dinámico
    NVFP4 "micro de cuatro bits" Formato de punto flotante con microescalado de 4 bits de NVIDIA; pesos y activaciones en Blackwell
    MXFP8 "MX ocho" Variante de FP8 con microescalado; acelerado por hardware en los Tensor Cores de Blackwell
    Day-0 FP4 "enviar pesos FP4" Los proveedores de modelos publican pesos ya en FP4; sin paso de conversión posterior al entrenamiento
    MTP "predicción de múltiples tokens" Borrador de decodificación especulativa integrado de TRT-LLM (Phase 17 · 05)
    Servicio desagregado "dividir prefill/decode" Prefill y decode en grupos de GPU separados; KV transferido sobre NVLink/IB
    All-to-all "comunicación de expertos de MoE" Patrón de comunicación que enruta tokens a GPUs expertas; NVLink 5 reduce la latencia en 3x
    InferenceX "benchmarking de inferencia de SemiAnalysis" El benchmark de costo por token aceptado por la industria en 2026

    Lecturas Adicionales

    0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).