Phase 17 - Lesson 02

Economía de Plataformas de Inferencia — Fireworks, Together, Baseten, Modal, Replicate, Anyscale

El mercado de inferencia de 2026 ya no es el alquiler de tiempo de GPU. Se bifurca en silicio personalizado (Groq, Cerebras, SambaNova), plataformas de GPU (Baseten, Together, Fireworks, Modal) y marketplaces API-first (Replicate, DeepInfra). Fireworks aumentó el precio en

/hora por GPU el 1 de mayo de 2026, y su valoración de $4B con más de 10T de tokens/día demuestra que el modelo impulsado por volumen funciona. Baseten cerró una ronda Series E de $300M a una valoración de $5B en enero de 2026. La regla de posicionamiento competitivo es simple: Fireworks optimiza la latencia, Together optimiza la amplitud del catálogo, Baseten optimiza el pulido empresarial, Modal optimiza la DX nativa en Python, Replicate optimiza el alcance multimodal y Anyscale optimiza Python distribuido. Esta lección te brinda una matriz que puedes presentar a un fundador.

Tipo: Aprender Lenguajes: Python (stdlib, comparador económico simplificado por llamada) Requisitos previos: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 04 (vLLM Serving Internals) Tiempo: ~60 minutos

Objetivos de Aprendizaje

  • Nombrar los tres segmentos de mercado (silicio personalizado, plataformas de GPU, API-first) y mapear cada proveedor a un segmento.
  • Explicar por qué el modelo de precios de API "por token" se comprime hacia la curva de costos del motor de servicio, no del hardware.
  • Calcular el costo efectivo por solicitud en al menos tres proveedores y explicar cuándo el cobro por minuto (Baseten, Modal) supera al cobro por token.
  • Identificar qué plataforma es la predeterminada adecuada para una carga de trabajo determinada (serverless con ráfagas, alto rendimiento constante, variantes ajustadas con fine-tuning, multimodal).

O Problema

Evaluaste las plataformas administradas de los proveedores de nube tradicionales (hyperscalers). Decidiste que necesitas un proveedor más especializado y rápido: Fireworks para latencia, Together para amplitud, Baseten para un modelo personalizado con fine-tuning. Ahora tienes seis opciones reales y las páginas de precios no coinciden. Fireworks muestra $/M de tokens; Baseten muestra $/minuto; Modal muestra $/segundo; Replicate muestra $/predicción. No puedes compararlos directamente sin modelar la carga de trabajo.

Peor aún, el modelo de negocio detrás de cada página de precios es diferente. Fireworks ejecuta su propio motor personalizado (FireAttention) en GPUs compartidas; la tarifa por token refleja su curva de utilización. Baseten te ofrece Truss + GPUs dedicadas; el precio por minuto refleja exclusividad. Modal es serverless puro en Python: facturación por segundo con cold starts inferiores a un segundo. El mismo resultado (una respuesta de LLM), tres funciones de costo diferentes.

Esta lección modela las seis plataformas y te indica cuándo gana cada una.

El Concepto

Los tres segmentos

Silicio personalizado — Groq (LPU), Cerebras (WSE), SambaNova (RDU). Normalmente, una decodificación de 5 a 10 veces más rápida que un clúster basado en GPU en el mismo modelo. Precio por token más alto (Groq costaba ~$0.99/M en Llama-70B a finales de 2025) pero imbatible para casos de uso sensibles a la latencia. Groq es la elección de producción para agentes de voz y traducción en tiempo real.

Plataformas de GPU — Baseten, Together, Fireworks, Modal, Anyscale. Funcionan con NVIDIA (H100, H200, B200 en 2026) o a veces AMD. La capa económica entre el "alquiler bruto de GPU" (RunPod, Lambda) y el "servicio administrado de hyperscaler" (Bedrock).

Marketplaces API-first — Replicate, DeepInfra, OpenRouter, Fal. Catálogo amplio, pago por predicción o por segundo, enfatizando el tiempo hasta la primera llamada (time-to-first-call).

Fireworks — plataforma de GPU optimizada para latencia

  • Motor FireAttention (personalizado); comercializado con una latencia 4 veces menor que vLLM en configuraciones equivalentes.
  • Capa de procesamiento por lotes (batch tier) a ~50% de la tarifa de serverless para cargas de trabajo no interactivas.
  • Modelo con fine-tuning servido a la misma tarifa que el modelo base: un diferenciador real frente a los proveedores que cobran un extra por tu LoRA.
  • Mediados de 2026: aumentó el alquiler de GPU bajo demanda en
    /hora a partir del 1 de mayo de 2026. Precios por volumen negociables a escala.
  • Señal financiera: valoración de $4B, más de 10T de tokens/día procesados.

Together — optimizada para amplitud

  • Más de 200 modelos, incluyendo lanzamientos de código abierto a los pocos días de su publicación original.
  • Entre un 50% y 70% más económico que Replicate en modelos de LLM equivalentes: el posicionamiento de "Nube Nativa de IA" se centra en volumen y catálogo.
  • Inferencia + fine-tuning + entrenamiento en una sola API.

Baseten — optimizada para el pulido empresarial

  • Framework Truss: empaquetado de modelos con dependencias, secretos y configuración de servicio en un solo manifiesto.
  • Gama de GPUs desde T4 hasta B200. Facturación por minuto con mitigación razonable de cold start.
  • Listo para SOC 2 Type II y HIPAA. Elección común para fintech y salud.
  • Valoración de $5B, Series E de $300M en enero de 2026 (liderado por CapitalG, IVP, NVIDIA).

Modal — optimizada para nativo en Python

  • Infraestructura como código en Python puro. Decora una función con @modal.function(gpu="A100") y despliega con un solo comando.
  • Facturación por segundo. Cold starts de 2 a 4 segundos con precalentamiento; <1s para modelos pequeños.
  • Series B de $87M a una valoración de
    .1B (2025). Puntuación más alta de experiencia del desarrollador (DX) en encuestas independientes.

Replicate — amplitud multimodal

  • Pago por predicción. La plataforma predeterminada para modelos de imagen, video y audio.
  • Ecosistema de integración (Zapier, Vercel, plugins de CMS).
  • Menos competitiva en tarifas por token de LLM, pero gana en variedad multimodal.

Anyscale — nativa en Ray

  • Construida sobre Ray; RayTurbo es el motor de inferencia propietario de Anyscale (compite con vLLM).
  • Ideal para cargas de trabajo distribuidas en Python donde el paso de inferencia es un nodo dentro de un grafo más grande.
  • Clústeres Ray administrados; estrecha integración con Ray AIR y Ray Serve.

Por token frente a por minuto — cuándo gana cada uno

El pago por token tiene sentido cuando la carga de trabajo no es sensible a la latencia y es intermitente (bursty): solo pagas por lo que usas. El pago por minuto tiene sentido cuando la utilización es alta y predecible: superas al modelo por token una vez que saturas la GPU.

Regla general: para cargas de trabajo por encima de ~30% de utilización sostenida de una GPU dedicada, el cobro por minuto (Baseten, Modal) comienza a superar al cobro por token (Fireworks, Together). Por debajo de eso, el cobro por token gana porque evitas pagar por la ociosidad.

El motor personalizado es el verdadero diferenciador (moat)

Cada plataforma por encima de vLLM y SGLang afirma tener un motor personalizado. FireAttention, RayTurbo, la pila de inferencia de Baseten. Las afirmaciones de motor personalizado tienen un sesgo de marketing; la perspectiva honesta es que vLLM + SGLang representan aproximadamente el 80% de la inferencia de código abierto en producción, y los diferenciadores en la capa de plataforma son DX, atribución y SLAs.

Números que debes recordar

  • Alquiler de GPU de Fireworks: aumento de
    /h efectivo el 1 de mayo de 2026.
  • Afirmación de Fireworks: latencia 4 veces menor que vLLM en configuraciones equivalentes.
  • Together: entre un 50% y 70% más barato que Replicate en LLMs.
  • Valoración de Baseten: $5B (Series E, ene de 2026, ronda de $300M).
  • Valoración de Modal:
    .1B (Series B, 2025).
  • El cobro por minuto supera al cobro por token por encima de ~30% de utilización sostenida.

Use It

code/main.py compara los seis proveedores en una carga de trabajo sintética a través de diferentes modelos de precios. Informa $/día y $/M de tokens efectivos. Ejecútalo para encontrar el punto de equilibrio entre cobro por token y por minuto.

Ship It

Esta lección produce outputs/skill-inference-platform-picker.md. Dados el perfil de carga de trabajo, el SLA y el presupuesto, elige la plataforma de inferencia principal y nombra a la finalista.

Exercises

  1. Ejecuta code/main.py. ¿A qué nivel de utilización sostenida Baseten (por minuto) supera a Fireworks (por token) para un modelo de 70B en una H100? Deduce el punto de cruce (crossover) tú mismo y compáralo con la regla general.
  2. Tu producto ofrece generación de imágenes, chat y conversión de voz a texto (speech-to-text). Elige las plataformas para cada modalidad y nombra el patrón de gateway que las unifica.
  3. Fireworks aumenta los precios en
    /h en tu modelo principal. Modela el impacto en el costo combinado si el 40% de tu tráfico se traslada a la capa de procesamiento por lotes (batch tier) con un 50% de descuento.
  4. Un cliente regulado requiere SOC 2 Type II + HIPAA + GPUs dedicadas. ¿Qué tres plataformas son viables y cuál de ellas gana en el aspecto FinOps?
  5. Compara el costo por 1,000 predicciones para Llama 3.1 70B en Fireworks serverless, Together on-demand, Baseten dedicado y Replicate API. ¿Cuál es el más barato con 10 predicciones/día? ¿Con 10,000?

Key Terms

Term What people say What it actually means
Silicio personalizado "chips que no son GPUs" Groq LPU, Cerebras WSE, SambaNova RDU — optimizados para decodificación
FireAttention "motor de Fireworks" Kernel de atención personalizado; comercializado con una latencia 4 veces menor que vLLM
Truss "formato de Baseten" Manifiesto de empaquetado de modelos; dependencias + secretos + configuración de servicio
Por token "precios de API" Cobro por tokens consumidos; no se paga por tiempo ocioso
Por minuto "precios dedicados" Cobro por tiempo corrido de GPU; gana en alta utilización
Por predicción "precios de Replicate" Cobro por invocación del modelo; común para imagen/video
RayTurbo "motor de Anyscale" Inferencia propietaria sobre Ray; compite con vLLM en clústeres Ray
Capa de procesamiento por lotes "50% de descuento" Fila no interactiva a una tarifa reducida; común en Fireworks y OpenAI
Fine-tuned a precio base "Fireworks LoRA" Cobra las solicitudes de LoRA a la misma tarifa que el modelo base (diferenciador)

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).