Phase 17 - Lesson 02
Economia de Plataformas de Inferência — Fireworks, Together, Baseten, Modal, Replicate, Anyscale
O mercado de inferência de 2026 não é mais apenas aluguel de tempo de GPU. Ele se divide em silício personalizado (Groq, Cerebras, SambaNova), plataformas de GPU (Baseten, Together, Fireworks, Modal) e marketplaces API-first (Replicate, DeepInfra). A Fireworks aumentou o preço em
/hora por GPU em 1 de maio de 2026, e seu valuation de $4B com mais de 10T de tokens/dia mostra que o modelo focado em volume funciona. A Baseten fechou uma rodada Series E de $300M com valuation de $5B em janeiro de 2026. A regra de posicionamento competitivo é simples: a Fireworks otimiza latência, a Together otimiza a variedade do catálogo, a Baseten otimiza o polimento corporativo, a Modal otimiza a DX nativa em Python, a Replicate otimiza o alcance multimodal e a Anyscale otimiza o Python distribuído. Esta lição oferece uma matriz que você pode apresentar a um fundador.Tipo: Aprender Linguagens: Python (stdlib, comparador econômico simplificado por chamada) Pré-requisitos: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 04 (vLLM Serving Internals) Tempo: ~60 minutos
Objetivos de Aprendizagem
- Nomear os três segmentos de mercado (silício personalizado, plataformas de GPU, API-first) e mapear cada fornecedor a um segmento.
- Explicar por que o modelo de precificação de API "por token" se comprime em direção à curva de custo do motor de serviço, e não ao hardware.
- Calcular o custo efetivo por requisição em pelo menos três fornecedores e explicar quando a cobrança por minuto (Baseten, Modal) supera a cobrança por token.
- Identificar qual plataforma é a padrão adequada para uma determinada carga de trabalho (bursty serverless, alto rendimento constante, variantes ajustadas com fine-tuning, multimodal).
O Problema
Você avaliou as plataformas gerenciadas de provedores de nuvem tradicionais (hyperscalers). Decidiu que precisa de um provedor mais focado e mais rápido — Fireworks para latência, Together para variedade, Baseten para um modelo personalizado com fine-tuning. Agora você tem seis opções reais e as páginas de precificação não batem. A Fireworks mostra $/M tokens; a Baseten mostra $/minuto; a Modal mostra $/segundo; a Replicate mostra $/predição. Você não pode compará-las diretamente sem modelar a carga de trabalho.
Pior ainda, o modelo de negócios por trás de cada página de precificação é diferente. A Fireworks executa seu próprio motor personalizado (FireAttention) em GPUs compartilhadas; a taxa por token reflete a curva de utilização deles. A Baseten oferece o Truss + GPUs dedicadas; o preço por minuto reflete a exclusividade. A Modal é serverless pura em Python — cobrança por segundo com cold starts abaixo de um segundo. O mesmo resultado (uma resposta de LLM), três funções de custo diferentes.
Esta lição fornece o modelo das seis plataformas e mostra quando cada uma vence.
O Conceito
Os três segmentos
Silício personalizado — Groq (LPU), Cerebras (WSE), SambaNova (RDU). Geralmente decodificação de 5 a 10 vezes mais rápida do que um cluster baseado em GPU no mesmo modelo. Preço por token mais alto (a Groq custava ~$0.99/M no Llama-70B no final de 2025), mas imbatível para casos de uso sensíveis a latência. A Groq é a escolha de produção para agentes de voz e tradução em tempo real.
Plataformas de GPU — Baseten, Together, Fireworks, Modal, Anyscale. Funcionam em NVIDIA (H100, H200, B200 em 2026) ou às vezes AMD. A camada econômica entre o "aluguel bruto de GPU" (RunPod, Lambda) e o "serviço gerenciado de hyperscaler" (Bedrock).
Marketplaces API-first — Replicate, DeepInfra, OpenRouter, Fal. Catálogo amplo, pagamento por predição ou por segundo, com ênfase no tempo até a primeira chamada (time-to-first-call).
Fireworks — plataforma de GPU otimizada para latência
- Motor FireAttention (personalizado); comercializado como tendo latência 4 vezes menor do que o vLLM em configurações equivalentes.
- Camada de lote (batch tier) a ~50% da taxa de serverless para cargas de trabalho não interativas.
- Modelo com fine-tuning servido à mesma taxa do modelo base — um diferencial real em relação aos provedores que cobram um adicional pelo seu LoRA.
- Meados de 2026: aumentou o aluguel de GPU sob demanda em
/hora a partir de 1 de maio de 2026. Preços por volume negociáveis em escala.- Sinal financeiro: valuation de $4B, mais de 10T de tokens/dia processados.
Together — otimizada para variedade
- Mais de 200 modelos, incluindo lançamentos de código aberto poucos dias após a publicação original.
- 50% a 70% mais barata que a Replicate em modelos de LLM equivalentes — o posicionamento de "Nuvem Nativa de IA" é focado em volume e catálogo.
- Inferência + fine-tuning + treinamento em uma única API.
Baseten — otimizada para polimento corporativo
- Framework Truss: empacotamento de modelos com dependências, segredos e configuração de serviço em um único manifesto.
- Variedade de GPUs de T4 a B200. Cobrança por minuto com mitigação razoável de cold start.
- Pronto para SOC 2 Type II e HIPAA. Escolha comum para fintechs e saúde.
- Valuation de $5B, Series E de $300M em janeiro de 2026 (liderado por CapitalG, IVP, NVIDIA).
Modal — otimizada para nativo em Python
- Infraestrutura como código em Python puro. Decore uma função com
@modal.function(gpu="A100")e faça o deploy com um único comando.- Cobrança por segundo. Cold starts de 2 a 4 segundos com pré-aquecimento; <1s para models pequenos.
- Series B de $87M com valuation de
.1B (2025). Maior pontuação de experiência do desenvolvedor (DX) em pesquisas independentes.Replicate — variedade multimodal
- Pagamento por predição. A plataforma padrão para modelos de imagem, vídeo e áudio.
- Ecossistema de integração (Zapier, Vercel, plugins de CMS).
- Menos competitiva em taxas por token de LLM, mas vence na variedade multimodal.
Anyscale — nativa em Ray
- Construída sobre o Ray; o RayTurbo é o motor de inferência proprietário da Anyscale (concorre com o vLLM).
- Melhor para cargas de trabalho distribuídas em Python, onde a etapa de inferência é apenas um nó em um grafo maior.
- Clusters Ray gerenciados; forte integração com Ray AIR e Ray Serve.
Por token versus por minuto — quando cada um vence
A cobrança por token faz sentido quando a carga de trabalho não é sensível a latência e é intermitente (bursty) — você só paga pelo que consome. A cobrança por minuto faz sentido quando a utilização é alta e previsível — você supera o modelo por token assim que começa a saturar a GPU.
Regra geral: para cargas de trabalho acima de ~30% de utilização sustentada de uma GPU dedicada, a cobrança por minuto (Baseten, Modal) começa a vencer a cobrança por token (Fireworks, Together). Abaixo disso, o modelo por token vence porque você evita pagar por ociosidade.
O motor personalizado é o verdadeiro diferencial (moat)
Toda plataforma acima do vLLM e SGLang alega ter um motor personalizado. FireAttention, RayTurbo, pilha de inferência da Baseten. As alegações de motor personalizado têm um viés de marketing — a realidade honesta é que o vLLM + SGLang representam cerca de 80% da inferência de código aberto em produção, e os diferenciais na camada de plataforma são DX, atribuição e SLAs.
Números que você deve lembrar
- Aluguel de GPU da Fireworks: aumento de
/h a partir de 1 de maio de 2026.- Alegação da Fireworks: latência 4 vezes menor que o vLLM em configurações equivalentes.
- Together: 50% a 70% mais barata que a Replicate em LLMs.
- Valuation da Baseten: $5B (Series E, jan de 2026, rodada de $300M).
- Valuation da Modal:
.1B (Series B, 2025).- Cobrança por minuto supera por token acima de ~30% de utilização sustentada.
Use It
code/main.pycompara os seis provedores em uma carga de trabalho sintética em diferentes modelos de precificação. Relata $/dia e $/M tokens efetivos. Execute-o para encontrar o ponto de equilíbrio entre cobrança por token e por minuto.Ship It
Esta lição produz
outputs/skill-inference-platform-picker.md. Com base no perfil de carga de trabalho, SLA e orçamento, escolhe a plataforma de inferência principal e nomeia a vice-campeã.Exercises
- Execute
code/main.py. Em qual nível de utilização sustentada a Baseten (por minuto) supera a Fireworks (por token) para um modelo de 70B em uma H100? Deduza o ponto de cruzamento (crossover) você mesmo e compare com a regra prática.- Seu produto oferece geração de imagens, chat e conversão de fala em texto (speech-to-text). Escolha as plataformas para cada modalidade e nomeie o padrão de gateway que as unifica.
- A Fireworks aumenta os preços em
/h no seu modelo principal. Modele o impacto no custo combinado se 40% do seu tráfego for movido para a camada de lote (batch tier) com 50% de desconto.- Um cliente regulamentado exige SOC 2 Type II + HIPAA + GPUs dedicadas. Quais três plataformas são viáveis e qual delas vence no aspecto FinOps?
- Compare o custo por 1.000 predições para o Llama 3.1 70B no Fireworks serverless, Together on-demand, Baseten dedicado e Replicate API. Qual é o mais barato com 10 predições/dia? Com 10.000?
Key Terms
Term What people say What it actually means Silício personalizado "chips que não são GPUs" Groq LPU, Cerebras WSE, SambaNova RDU — otimizados para decodificação FireAttention "motor da Fireworks" Kernel de atenção personalizado; comercializado com latência 4 vezes menor que o vLLM Truss "formato da Baseten" Manifesto de empacotamento de modelos; dependências + segredos + configuração de serviço Por token "precificação de API" Cobrança por tokens consumidos; não paga por tempo ocioso Por minuto "precificação dedicada" Cobrança por tempo corrido de GPU; vence em alta utilização Por predição "precificação da Replicate" Cobrança por invocação do modelo; comum para imagem/vídeo RayTurbo "motor da Anyscale" Inferência proprietária sobre o Ray; concorre com vLLM em clusters Ray Camada de lote "50% de desconto" Fila não interativa a uma taxa reduzida; comum na Fireworks e OpenAI Fine-tuned ao preço de base "Fireworks LoRA" Cobra requisições de LoRA na mesma taxa do modelo base (diferencial) Further Reading
- Fireworks Pricing — taxas por token, camada de lote, aluguel de GPU.
- Baseten Pricing — taxas por minuto, capacidade comprometida, camadas corporativas.
- Modal Pricing — taxas de GPU por segundo e camada gratuita.
- Together AI Pricing — catálogo de modelos e taxas por token.
- Anyscale Pricing — RayTurbo e preços de Ray gerenciado.
- Northflank — Fireworks AI Alternatives — avaliação comparativa.
- Infrabase — AI Inference API Providers 2026 — panorama de fornecedores.