Phase 17 - Lesson 02

Economia de Plataformas de Inferência — Fireworks, Together, Baseten, Modal, Replicate, Anyscale

O mercado de inferência de 2026 não é mais apenas aluguel de tempo de GPU. Ele se divide em silício personalizado (Groq, Cerebras, SambaNova), plataformas de GPU (Baseten, Together, Fireworks, Modal) e marketplaces API-first (Replicate, DeepInfra). A Fireworks aumentou o preço em

/hora por GPU em 1 de maio de 2026, e seu valuation de $4B com mais de 10T de tokens/dia mostra que o modelo focado em volume funciona. A Baseten fechou uma rodada Series E de $300M com valuation de $5B em janeiro de 2026. A regra de posicionamento competitivo é simples: a Fireworks otimiza latência, a Together otimiza a variedade do catálogo, a Baseten otimiza o polimento corporativo, a Modal otimiza a DX nativa em Python, a Replicate otimiza o alcance multimodal e a Anyscale otimiza o Python distribuído. Esta lição oferece uma matriz que você pode apresentar a um fundador.

Tipo: Aprender Linguagens: Python (stdlib, comparador econômico simplificado por chamada) Pré-requisitos: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 04 (vLLM Serving Internals) Tempo: ~60 minutos

Objetivos de Aprendizagem

  • Nomear os três segmentos de mercado (silício personalizado, plataformas de GPU, API-first) e mapear cada fornecedor a um segmento.
  • Explicar por que o modelo de precificação de API "por token" se comprime em direção à curva de custo do motor de serviço, e não ao hardware.
  • Calcular o custo efetivo por requisição em pelo menos três fornecedores e explicar quando a cobrança por minuto (Baseten, Modal) supera a cobrança por token.
  • Identificar qual plataforma é a padrão adequada para uma determinada carga de trabalho (bursty serverless, alto rendimento constante, variantes ajustadas com fine-tuning, multimodal).

O Problema

Você avaliou as plataformas gerenciadas de provedores de nuvem tradicionais (hyperscalers). Decidiu que precisa de um provedor mais focado e mais rápido — Fireworks para latência, Together para variedade, Baseten para um modelo personalizado com fine-tuning. Agora você tem seis opções reais e as páginas de precificação não batem. A Fireworks mostra $/M tokens; a Baseten mostra $/minuto; a Modal mostra $/segundo; a Replicate mostra $/predição. Você não pode compará-las diretamente sem modelar a carga de trabalho.

Pior ainda, o modelo de negócios por trás de cada página de precificação é diferente. A Fireworks executa seu próprio motor personalizado (FireAttention) em GPUs compartilhadas; a taxa por token reflete a curva de utilização deles. A Baseten oferece o Truss + GPUs dedicadas; o preço por minuto reflete a exclusividade. A Modal é serverless pura em Python — cobrança por segundo com cold starts abaixo de um segundo. O mesmo resultado (uma resposta de LLM), três funções de custo diferentes.

Esta lição fornece o modelo das seis plataformas e mostra quando cada uma vence.

O Conceito

Os três segmentos

Silício personalizado — Groq (LPU), Cerebras (WSE), SambaNova (RDU). Geralmente decodificação de 5 a 10 vezes mais rápida do que um cluster baseado em GPU no mesmo modelo. Preço por token mais alto (a Groq custava ~$0.99/M no Llama-70B no final de 2025), mas imbatível para casos de uso sensíveis a latência. A Groq é a escolha de produção para agentes de voz e tradução em tempo real.

Plataformas de GPU — Baseten, Together, Fireworks, Modal, Anyscale. Funcionam em NVIDIA (H100, H200, B200 em 2026) ou às vezes AMD. A camada econômica entre o "aluguel bruto de GPU" (RunPod, Lambda) e o "serviço gerenciado de hyperscaler" (Bedrock).

Marketplaces API-first — Replicate, DeepInfra, OpenRouter, Fal. Catálogo amplo, pagamento por predição ou por segundo, com ênfase no tempo até a primeira chamada (time-to-first-call).

Fireworks — plataforma de GPU otimizada para latência

  • Motor FireAttention (personalizado); comercializado como tendo latência 4 vezes menor do que o vLLM em configurações equivalentes.
  • Camada de lote (batch tier) a ~50% da taxa de serverless para cargas de trabalho não interativas.
  • Modelo com fine-tuning servido à mesma taxa do modelo base — um diferencial real em relação aos provedores que cobram um adicional pelo seu LoRA.
  • Meados de 2026: aumentou o aluguel de GPU sob demanda em
    /hora a partir de 1 de maio de 2026. Preços por volume negociáveis em escala.
  • Sinal financeiro: valuation de $4B, mais de 10T de tokens/dia processados.

Together — otimizada para variedade

  • Mais de 200 modelos, incluindo lançamentos de código aberto poucos dias após a publicação original.
  • 50% a 70% mais barata que a Replicate em modelos de LLM equivalentes — o posicionamento de "Nuvem Nativa de IA" é focado em volume e catálogo.
  • Inferência + fine-tuning + treinamento em uma única API.

Baseten — otimizada para polimento corporativo

  • Framework Truss: empacotamento de modelos com dependências, segredos e configuração de serviço em um único manifesto.
  • Variedade de GPUs de T4 a B200. Cobrança por minuto com mitigação razoável de cold start.
  • Pronto para SOC 2 Type II e HIPAA. Escolha comum para fintechs e saúde.
  • Valuation de $5B, Series E de $300M em janeiro de 2026 (liderado por CapitalG, IVP, NVIDIA).

Modal — otimizada para nativo em Python

  • Infraestrutura como código em Python puro. Decore uma função com @modal.function(gpu="A100") e faça o deploy com um único comando.
  • Cobrança por segundo. Cold starts de 2 a 4 segundos com pré-aquecimento; <1s para models pequenos.
  • Series B de $87M com valuation de
    .1B (2025). Maior pontuação de experiência do desenvolvedor (DX) em pesquisas independentes.

Replicate — variedade multimodal

  • Pagamento por predição. A plataforma padrão para modelos de imagem, vídeo e áudio.
  • Ecossistema de integração (Zapier, Vercel, plugins de CMS).
  • Menos competitiva em taxas por token de LLM, mas vence na variedade multimodal.

Anyscale — nativa em Ray

  • Construída sobre o Ray; o RayTurbo é o motor de inferência proprietário da Anyscale (concorre com o vLLM).
  • Melhor para cargas de trabalho distribuídas em Python, onde a etapa de inferência é apenas um nó em um grafo maior.
  • Clusters Ray gerenciados; forte integração com Ray AIR e Ray Serve.

Por token versus por minuto — quando cada um vence

A cobrança por token faz sentido quando a carga de trabalho não é sensível a latência e é intermitente (bursty) — você só paga pelo que consome. A cobrança por minuto faz sentido quando a utilização é alta e previsível — você supera o modelo por token assim que começa a saturar a GPU.

Regra geral: para cargas de trabalho acima de ~30% de utilização sustentada de uma GPU dedicada, a cobrança por minuto (Baseten, Modal) começa a vencer a cobrança por token (Fireworks, Together). Abaixo disso, o modelo por token vence porque você evita pagar por ociosidade.

O motor personalizado é o verdadeiro diferencial (moat)

Toda plataforma acima do vLLM e SGLang alega ter um motor personalizado. FireAttention, RayTurbo, pilha de inferência da Baseten. As alegações de motor personalizado têm um viés de marketing — a realidade honesta é que o vLLM + SGLang representam cerca de 80% da inferência de código aberto em produção, e os diferenciais na camada de plataforma são DX, atribuição e SLAs.

Números que você deve lembrar

  • Aluguel de GPU da Fireworks: aumento de
    /h a partir de 1 de maio de 2026.
  • Alegação da Fireworks: latência 4 vezes menor que o vLLM em configurações equivalentes.
  • Together: 50% a 70% mais barata que a Replicate em LLMs.
  • Valuation da Baseten: $5B (Series E, jan de 2026, rodada de $300M).
  • Valuation da Modal:
    .1B (Series B, 2025).
  • Cobrança por minuto supera por token acima de ~30% de utilização sustentada.

Use It

code/main.py compara os seis provedores em uma carga de trabalho sintética em diferentes modelos de precificação. Relata $/dia e $/M tokens efetivos. Execute-o para encontrar o ponto de equilíbrio entre cobrança por token e por minuto.

Ship It

Esta lição produz outputs/skill-inference-platform-picker.md. Com base no perfil de carga de trabalho, SLA e orçamento, escolhe a plataforma de inferência principal e nomeia a vice-campeã.

Exercises

  1. Execute code/main.py. Em qual nível de utilização sustentada a Baseten (por minuto) supera a Fireworks (por token) para um modelo de 70B em uma H100? Deduza o ponto de cruzamento (crossover) você mesmo e compare com a regra prática.
  2. Seu produto oferece geração de imagens, chat e conversão de fala em texto (speech-to-text). Escolha as plataformas para cada modalidade e nomeie o padrão de gateway que as unifica.
  3. A Fireworks aumenta os preços em
    /h no seu modelo principal. Modele o impacto no custo combinado se 40% do seu tráfego for movido para a camada de lote (batch tier) com 50% de desconto.
  4. Um cliente regulamentado exige SOC 2 Type II + HIPAA + GPUs dedicadas. Quais três plataformas são viáveis e qual delas vence no aspecto FinOps?
  5. Compare o custo por 1.000 predições para o Llama 3.1 70B no Fireworks serverless, Together on-demand, Baseten dedicado e Replicate API. Qual é o mais barato com 10 predições/dia? Com 10.000?

Key Terms

Term What people say What it actually means
Silício personalizado "chips que não são GPUs" Groq LPU, Cerebras WSE, SambaNova RDU — otimizados para decodificação
FireAttention "motor da Fireworks" Kernel de atenção personalizado; comercializado com latência 4 vezes menor que o vLLM
Truss "formato da Baseten" Manifesto de empacotamento de modelos; dependências + segredos + configuração de serviço
Por token "precificação de API" Cobrança por tokens consumidos; não paga por tempo ocioso
Por minuto "precificação dedicada" Cobrança por tempo corrido de GPU; vence em alta utilização
Por predição "precificação da Replicate" Cobrança por invocação do modelo; comum para imagem/vídeo
RayTurbo "motor da Anyscale" Inferência proprietária sobre o Ray; concorre com vLLM em clusters Ray
Camada de lote "50% de desconto" Fila não interativa a uma taxa reduzida; comum na Fireworks e OpenAI
Fine-tuned ao preço de base "Fireworks LoRA" Cobra requisições de LoRA na mesma taxa do modelo base (diferencial)

Further Reading

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).