Phase 17 - Lesson 02

Economia de Plataformas de Inferência — Fireworks, Together, Baseten, Modal, Replicate, Anyscale

O mercado de inferência de 2026 não é mais apenas aluguel de tempo de GPU. Ele se divide em silício personalizado (Groq, Cerebras, SambaNova), plataformas de GPU (Baseten, Together, Fireworks, Modal) e marketplaces API-first (Replicate, DeepInfra). A Fireworks aumentou o preço em
/hora por GPU em 1 de maio de 2026, e seu valuation de $4B com mais de 10T de tokens/dia mostra que o modelo focado em volume funciona. A Baseten fechou uma rodada Series E de $300M com valuation de $5B em janeiro de 2026. A regra de posicionamento competitivo é simples: a Fireworks otimiza latência, a Together otimiza a variedade do catálogo, a Baseten otimiza o polimento corporativo, a Modal otimiza a DX nativa em Python, a Replicate otimiza o alcance multimodal e a Anyscale otimiza o Python distribuído. Esta lição oferece uma matriz que você pode apresentar a um fundador.

Tipo: Aprender Linguagens: Python (stdlib, comparador econômico simplificado por chamada) Pré-requisitos: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 04 (vLLM Serving Internals) Tempo: ~60 minutos

Objetivos de Aprendizagem

Nomear os três segmentos de mercado (silício personalizado, plataformas de GPU, API-first) e mapear cada fornecedor a um segmento.
Explicar por que o modelo de precificação de API "por token" se comprime em direção à curva de custo do motor de serviço, e não ao hardware.
Calcular o custo efetivo por requisição em pelo menos três fornecedores e explicar quando a cobrança por minuto (Baseten, Modal) supera a cobrança por token.
Identificar qual plataforma é a padrão adequada para uma determinada carga de trabalho (bursty serverless, alto rendimento constante, variantes ajustadas com fine-tuning, multimodal).

O Problema

Você avaliou as plataformas gerenciadas de provedores de nuvem tradicionais (hyperscalers). Decidiu que precisa de um provedor mais focado e mais rápido — Fireworks para latência, Together para variedade, Baseten para um modelo personalizado com fine-tuning. Agora você tem seis opções reais e as páginas de precificação não batem. A Fireworks mostra $/M tokens; a Baseten mostra $/minuto; a Modal mostra $/segundo; a Replicate mostra $/predição. Você não pode compará-las diretamente sem modelar a carga de trabalho.

Pior ainda, o modelo de negócios por trás de cada página de precificação é diferente. A Fireworks executa seu próprio motor personalizado (FireAttention) em GPUs compartilhadas; a taxa por token reflete a curva de utilização deles. A Baseten oferece o Truss + GPUs dedicadas; o preço por minuto reflete a exclusividade. A Modal é serverless pura em Python — cobrança por segundo com cold starts abaixo de um segundo. O mesmo resultado (uma resposta de LLM), três funções de custo diferentes.

Esta lição fornece o modelo das seis plataformas e mostra quando cada uma vence.

O Conceito

Os três segmentos

Silício personalizado — Groq (LPU), Cerebras (WSE), SambaNova (RDU). Geralmente decodificação de 5 a 10 vezes mais rápida do que um cluster baseado em GPU no mesmo modelo. Preço por token mais alto (a Groq custava ~$0.99/M no Llama-70B no final de 2025), mas imbatível para casos de uso sensíveis a latência. A Groq é a escolha de produção para agentes de voz e tradução em tempo real.

Plataformas de GPU — Baseten, Together, Fireworks, Modal, Anyscale. Funcionam em NVIDIA (H100, H200, B200 em 2026) ou às vezes AMD. A camada econômica entre o "aluguel bruto de GPU" (RunPod, Lambda) e o "serviço gerenciado de hyperscaler" (Bedrock).

Marketplaces API-first — Replicate, DeepInfra, OpenRouter, Fal. Catálogo amplo, pagamento por predição ou por segundo, com ênfase no tempo até a primeira chamada (time-to-first-call).

Fireworks — plataforma de GPU otimizada para latência

Motor FireAttention (personalizado); comercializado como tendo latência 4 vezes menor do que o vLLM em configurações equivalentes.
Camada de lote (batch tier) a ~50% da taxa de serverless para cargas de trabalho não interativas.
Modelo com fine-tuning servido à mesma taxa do modelo base — um diferencial real em relação aos provedores que cobram um adicional pelo seu LoRA.
Meados de 2026: aumentou o aluguel de GPU sob demanda em
/hora a partir de 1 de maio de 2026. Preços por volume negociáveis em escala.
Sinal financeiro: valuation de $4B, mais de 10T de tokens/dia processados.

Together — otimizada para variedade

Mais de 200 modelos, incluindo lançamentos de código aberto poucos dias após a publicação original.
50% a 70% mais barata que a Replicate em modelos de LLM equivalentes — o posicionamento de "Nuvem Nativa de IA" é focado em volume e catálogo.
Inferência + fine-tuning + treinamento em uma única API.

Baseten — otimizada para polimento corporativo

Framework Truss: empacotamento de modelos com dependências, segredos e configuração de serviço em um único manifesto.
Variedade de GPUs de T4 a B200. Cobrança por minuto com mitigação razoável de cold start.
Pronto para SOC 2 Type II e HIPAA. Escolha comum para fintechs e saúde.
Valuation de $5B, Series E de $300M em janeiro de 2026 (liderado por CapitalG, IVP, NVIDIA).

Modal — otimizada para nativo em Python

Infraestrutura como código em Python puro. Decore uma função com @modal.function(gpu="A100") e faça o deploy com um único comando.
Cobrança por segundo. Cold starts de 2 a 4 segundos com pré-aquecimento; <1s para models pequenos.
Series B de $87M com valuation de
.1B (2025). Maior pontuação de experiência do desenvolvedor (DX) em pesquisas independentes.

Replicate — variedade multimodal

Pagamento por predição. A plataforma padrão para modelos de imagem, vídeo e áudio.
Ecossistema de integração (Zapier, Vercel, plugins de CMS).
Menos competitiva em taxas por token de LLM, mas vence na variedade multimodal.

Anyscale — nativa em Ray

Construída sobre o Ray; o RayTurbo é o motor de inferência proprietário da Anyscale (concorre com o vLLM).
Melhor para cargas de trabalho distribuídas em Python, onde a etapa de inferência é apenas um nó em um grafo maior.
Clusters Ray gerenciados; forte integração com Ray AIR e Ray Serve.

Por token versus por minuto — quando cada um vence

A cobrança por token faz sentido quando a carga de trabalho não é sensível a latência e é intermitente (bursty) — você só paga pelo que consome. A cobrança por minuto faz sentido quando a utilização é alta e previsível — você supera o modelo por token assim que começa a saturar a GPU.

Regra geral: para cargas de trabalho acima de ~30% de utilização sustentada de uma GPU dedicada, a cobrança por minuto (Baseten, Modal) começa a vencer a cobrança por token (Fireworks, Together). Abaixo disso, o modelo por token vence porque você evita pagar por ociosidade.

O motor personalizado é o verdadeiro diferencial (moat)

Toda plataforma acima do vLLM e SGLang alega ter um motor personalizado. FireAttention, RayTurbo, pilha de inferência da Baseten. As alegações de motor personalizado têm um viés de marketing — a realidade honesta é que o vLLM + SGLang representam cerca de 80% da inferência de código aberto em produção, e os diferenciais na camada de plataforma são DX, atribuição e SLAs.

Números que você deve lembrar

Aluguel de GPU da Fireworks: aumento de
/h a partir de 1 de maio de 2026.
Alegação da Fireworks: latência 4 vezes menor que o vLLM em configurações equivalentes.
Together: 50% a 70% mais barata que a Replicate em LLMs.
Valuation da Baseten: $5B (Series E, jan de 2026, rodada de $300M).
Valuation da Modal:
.1B (Series B, 2025).
Cobrança por minuto supera por token acima de ~30% de utilização sustentada.

Use It

code/main.py compara os seis provedores em uma carga de trabalho sintética em diferentes modelos de precificação. Relata $/dia e $/M tokens efetivos. Execute-o para encontrar o ponto de equilíbrio entre cobrança por token e por minuto.

Ship It

Esta lição produz outputs/skill-inference-platform-picker.md. Com base no perfil de carga de trabalho, SLA e orçamento, escolhe a plataforma de inferência principal e nomeia a vice-campeã.

Exercises

Execute code/main.py. Em qual nível de utilização sustentada a Baseten (por minuto) supera a Fireworks (por token) para um modelo de 70B em uma H100? Deduza o ponto de cruzamento (crossover) você mesmo e compare com a regra prática.
Seu produto oferece geração de imagens, chat e conversão de fala em texto (speech-to-text). Escolha as plataformas para cada modalidade e nomeie o padrão de gateway que as unifica.
A Fireworks aumenta os preços em
/h no seu modelo principal. Modele o impacto no custo combinado se 40% do seu tráfego for movido para a camada de lote (batch tier) com 50% de desconto.
Um cliente regulamentado exige SOC 2 Type II + HIPAA + GPUs dedicadas. Quais três plataformas são viáveis e qual delas vence no aspecto FinOps?
Compare o custo por 1.000 predições para o Llama 3.1 70B no Fireworks serverless, Together on-demand, Baseten dedicado e Replicate API. Qual é o mais barato com 10 predições/dia? Com 10.000?

Key Terms

Term	What people say	What it actually means
Silício personalizado	"chips que não são GPUs"	Groq LPU, Cerebras WSE, SambaNova RDU — otimizados para decodificação
FireAttention	"motor da Fireworks"	Kernel de atenção personalizado; comercializado com latência 4 vezes menor que o vLLM
Truss	"formato da Baseten"	Manifesto de empacotamento de modelos; dependências + segredos + configuração de serviço
Por token	"precificação de API"	Cobrança por tokens consumidos; não paga por tempo ocioso
Por minuto	"precificação dedicada"	Cobrança por tempo corrido de GPU; vence em alta utilização
Por predição	"precificação da Replicate"	Cobrança por invocação do modelo; comum para imagem/vídeo
RayTurbo	"motor da Anyscale"	Inferência proprietária sobre o Ray; concorre com vLLM em clusters Ray
Camada de lote	"50% de desconto"	Fila não interativa a uma taxa reduzida; comum na Fireworks e OpenAI
Fine-tuned ao preço de base	"Fireworks LoRA"	Cobra requisições de LoRA na mesma taxa do modelo base (diferencial)