Phase 17 - Lesson 15

Batch APIs — the 50% Discount as Industry Standard

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Cada grande provedor distribui uma API de processamento em lote (Batch API) assíncrona com 50% de desconto e um prazo de conclusão de cerca de 24 horas. OpenAI, Anthropic, Google e a maioria das plataformas de inferência (como a camada de lote da Fireworks e da Together) implementam o mesmo padrão. Ao empilhar o processamento em lote com o cache de prompt em pipelines noturnos, o custo cai para aproximadamente 10% do processamento síncrono e sem cache. A regra é brutalmente simples: se o fluxo não for interativo, ele deve ser processado em lote. Pipelines de geração de conteúdo, classificação de documentos, extração de dados, geração de relatórios, rotulagem em massa, categorização de catálogo — qualquer tarefa que tolere uma latência de 24 horas representa desperdício de dinheiro até que seja migrada para lote. O padrão de produção de 2026 consiste em triar cada nova carga de trabalho de LLM em três vias: interativa (síncrona com cache), semi-interativa (fila assíncrona com fallback) e em lote (execução noturna com cache de entrada empilhado). Cargas de trabalho que se fingem de interativas mas toleram minutos de latência são as que mais desperdiçam recursos.

Type: Learn Languages: Python (stdlib, toy batch-vs-sync cost simulator) Prerequisites: Phase 17 · 14 (Prompt & Semantic Caching) Time: ~45 minutos

Learning Objectives

Identificar as três APIs de lote dos provedores (OpenAI, Anthropic, Google) e a garantia comum de 50% de desconto com prazo de conclusão de 24 horas.
Calcular a economia decorrente do empilhamento de processamento em lote e cache de entrada em um fluxo de classificação noturno, comparando-o com o processamento síncrono sem cache.
Triar cargas de trabalho entre interativa / semi-interativa / lote e justificar a rota adotada.
Identificar as duas armadilhas do lote: interatividade parcial (usuário espera retorno em menos de 24 horas) e desvio no esquema de saída (diferentes formatos de arquivos de lote por provedor).

O Problema

Sua equipe coloca em produção um pipeline noturno de geração de relatórios. São 50.000 documentos: resumir cada um, agrupar os resumos e redigir um relatório executivo condensado. Rodando de forma síncrona, a tarefa leva 4 horas e custa

Termo	O que as pessoas dizem	O que realmente significa
API de lote	"desconto assíncrono"	50% de desconto com prazo de conclusão de 24h
JSONL	"format de lote"	Formato de um objeto JSON por linha; padrão da OpenAI/Anthropic
Message Batches	"lote da Anthropic"	Nome comercial da API de lote da Anthropic
Batch prediction	"lote do Vertex"	Produto de API de lote da Vertex AI
SLA de conclusão	"promessa de 24h"	Garantia contratual máxima; o tempo típico real é de 2 a 6h
Triagem de carga de trabalho	"decisão de interatividade"	Decisão de roteamento de fluxos em interativo, semi-interativo ou lote
Formato de saída	"esquema de resposta"	Layout JSONL específico de cada provedor; não portável
Desconto empilhado	"lote + cache"	~10% da fatura síncrona original ao acumular os dois recursos

Batch APIs — the 50% Discount as Industry Standard

Learning Objectives

O Problema

O Conceito

As três APIs de lote

Semântica: assíncrono, não lento

Empilhando com cache

Triagem de carga de trabalho

A armadilha da interatividade parcial

A armadilha do formato de saída

Números que você deve lembrar

Use na Prática

Envie para Produção

Exercícios

Termos-Chave

Leitura Adicional