Phase 17 - Lesson 16

Model Routing as a Cost-Reduction Primitive

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Um corretor (broker) dinâmico avalia cada requisição (tipo de tarefa, comprimento de tokens, similaridade de embeddings, confiança) e direciona perguntas simples para um modelo barato, escalando consultas complexas para um modelo de fronteira (frontier model). Esse processo também é conhecido como cascata de modelos (model cascading). Casos de estudo de produção apontam reduções de custo entre 20% e 60% com manutenção equivalente de qualidade (iso-quality) em implantações nos EUA/Reino Unido/UE; um incremento de 30% na eficiência de roteamento em SaaS de alto volume resulta em economias anuais de seis dígitos. No contexto de 2026, os preços de inferência de LLM caíram cerca de 10x ao ano — o token de nível GPT-4 caiu de

0/M para ~$0.40/M entre o final de 2022 e 2026. A maior parte dessa redução decorre de pilhas de serviço otimizadas (Fase 17 · 04-09), e não de hardware. O roteamento é a forma de converter essa queda de preço em margem sem comprometer o produto. O principal modo de falha é o desvio do modelo barato (cheap-model drift): o roteador envia 40% do tráfego para um modelo mais fraco, a qualidade cai de 3% a 5% em tarefas de raciocínio, e ninguém percebe a mudança por meses. Proteja os roteamentos com métricas de qualidade em tempo real (online quality gates), e não apenas com conjuntos de testes offline (eval sets).

Type: Learn Languages: Python (stdlib, toy cascading router simulator) Prerequisites: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 19 (AI Gateways) Time: ~60 minutos

Learning Objectives

Explicar o funcionamento da cascata de modelos (model cascading): execução no modelo barato primeiro com verificação de confiança, escalando para o de fronteira em caso de baixa confiança.
Enumerar os quatro sinais de roteamento (classificação de tarefa, comprimento do prompt, similaridade de embeddings com um conjunto de casos difíceis e autoconfiança de primeira passagem).
Calcular o custo misto esperado com base nas taxas de roteamento e na tolerância a perdas de qualidade.
Identificar a métrica de monitoramento de desvios (online quality gate) para conter o desvio do modelo barato.

O Problema

Seu serviço custa $80.000 por mês rodando no GPT-5. Seus dados de análise apontam que 70% das requisições são triviais: "que horas são em Paris?" "reescreva esta frase". Um modelo da classe Haiku resolve essas chamadas com perfeição a 3% do custo do GPT-5. Apenas 30% das chamadas exigem a capacidade de raciocínio avançado do GPT-5 — desenvolvimento de software, matemática, planejamento com múltiplos passos.

Ao direcionar os 70% simples para o modelo barato e os 30% complexos para o de fronteira, sua fatura diminui ~65% mantendo o mesmo nível de qualidade do produto. Isso é roteamento de modelos. O desafio é estruturar o corretor dinâmico sem prejudicar a entrega.

O Conceito

Quatro sinais de roteamento

Classificação de tarefas: simples/complexa/programação/matemática/chat. Pode ser feita via classificador baseado em regras, por um pequeno LLM (classe Haiku a $0.25/M) ou por similaridade de embeddings com grupos pré-rotulados. Saída: rota = barato / balanceado / fronteira.
Comprimento do prompt: prompts com mais de 4K tokens costumam exigir modelos de fronteira para manter a coerência geral. Prompts curtos com menos de 500 tokens geralmente não precisam.
Similaridade de embeddings com conjunto de casos difíceis: se o prompt de entrada for semelhante (similaridade de cosseno > 0.88) a um repositório conhecido de consultas complexas (known-hard set), escale-o diretamente para o de fronteira.
Autoconfiança de primeira passagem: envie a pergunta para o modelo barato; caso a probabilidade de tokens (log-probs) aponte baixa confiança, recusa de resposta ou uso de linguagem evasiva, tente novamente com o modelo de fronteira. Essa estratégia acrescenta latência P95 em ~10% das requisições gerais, mas reduz o custo em mais de 50% nas outras 90% das chamadas.

Três padrões de roteamento

Roteamento prévio / Pre-route (classificador na entrada): adiciona ~5-10ms de latência de processamento interno; representa a abordagem de menor tempo de resposta fim a fim.

Cascata / Cascade (barato primeiro, escalando sob baixa confiança): acrescenta ~1.2x à latência mediana (execução de baixo custo mais etapa de validação) e ~2x nas chamadas escaladas. Representa o melhor controle de qualidade básica do sistema.

Roteamento em conjunto / Ensemble route (execução paralela em ambos os modelos para amostragem e seleção via modelo de recompensa): gera maior qualidade de saída e o maior custo geral; recomendado apenas para testes A/B críticos.

Implantação

Gateways de IA (Fase 17 · 19) expõem o roteamento nativamente. O LiteLLM possui configuração de router com fallback e roteamento por custo. O Portkey oferece barreiras de controle (guards) e roteamento. O gateway Kong AI conta com plugins dedicados. A loja de modelos do OpenRouter expõe uma API de recomendação de rotas.

Repositórios de código aberto: RouteLLM (LMSYS), Not Diamond (comercial), Prompt Mule.

A curva de preços de 2026

Classe de modelo	Final de 2022	2026	Evolução
Qualidade nível GPT-4	~ 0/M	~$0.40/M	50x mais barato
Fronteira (GPT-5, Claude 4)	—	~$3-10/M	nova categoria

A maior parte desse ganho advém da eficiência na entrega e serviço de modelos — os pilares apresentados na Fase 17 · 04-09 foram implementados pelos provedores. O roteamento permite capturar essas economias na camada de aplicação, sem a necessidade de migrar todos os usuários manualmente para o nível barato.

O desvio do modelo é o verdadeiro risco

Seu roteador destina 40% das chamadas para o modelo econômico. Ao longo de seis meses, o comportamento dos usuários muda (eles formulam perguntas mais complexas e prompts mais longos). O roteador não percebe o desvio porque seu classificador interno foi treinado no início do ano. A qualidade geral do produto cai silenciosamente, sem reclamações explícitas de imediato, até você descobrir em testes comparativos que perdeu mercado para um concorrente.

Monitore os roteamentos com métricas ativas em tempo real (online quality gates):

Avaliação de usuários (botões de feedback positivo/negativo) segmentadas por rota.
LLM-judge automatizado rodando sobre uma amostra (5%) de validação de cada rota.
Taxa de escalonamento: se o fluxo em cascata está escalando mais do que 30% das chamadas, o modelo barato está recebendo mais tarefas do que consegue processar.
Taxa de recusa de respostas por rota.

Números que você deve lembrar

Economia média por roteamento em 2026 (iso-quality): de 20% a 60% segundo casos práticos.
Queda de preço de LLMs entre 2022 e 2026: ~10x ao ano em termos agregados.
Token nível GPT-4 em 2022 vs 2026: ~ 0/M → ~$0.40/M.
Impacto de latência em cascata: ~1.2x latência mediana, ~2x nas chamadas escaladas (cerca de 10% do tráfego).

Use na Prática

code/main.py simula as abordagens de pre-route, cascade e ensemble sob cargas de trabalho variadas. Reporta o custo misto de tokens, a perda de qualidade e a taxa de escalonamento final.

Envie para Produção

Esta lição produz outputs/skill-router-plan.md. Dadas as especificidades de uma carga de trabalho e o orçamento de qualidade do produto, desenha um padrão de roteamento e mapeia os sinais correspondentes.

Exercícios

Execute code/main.py. Sob qual limiar de precisão a abordagem de cascata supera o pre-route simples?
Sua base de usuários é composta de 30% de clientes corporativos (com chamadas complexas) e 70% de usuários gratuitos (com chamadas simples). Projete a estrutura do roteador. Qual métrica ativa (online metric) controlará as rotas?
Uma alteração de rota diminui a qualidade de resposta em 2% mas gera economia de 40% no custo de infraestrutura. Esse ajuste deve ser implantado? A resposta depende do tipo de produto — defenda ambos os pontos de vista.
Desenvolva uma validação de confiança em código extraindo as probabilidades de log (logprobs) nas APIs da OpenAI / Anthropic. Qual valor de limiar (threshold) você utilizaria inicialmente?
Em um intervalo de seis meses, a taxa de escalonamento do roteador saltou de 8% para 22%. Aponte três causas prováveis para essa mudança e a respectiva correção para cada uma.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Roteamento de modelos	"corretor de custo"	Seleção dinâmica do modelo ideal para responder a cada prompt
Cascata de modelos	"barato com escala"	Executar o modelo barato primeiro e acionar o modelo avançado se a confiança for baixa
Roteamento prévio	"classificar antes"	Uso de um classificador leve na entrada da chamada; evita reexecução
Roteamento em conjunto	"teste paralelo"	Execução paralela em múltiplos modelos com seleção da resposta ideal por modelo de recompensa
Taxa de escalonamento	"percentual escalado"	Proporção de requisições enviadas ao modelo avançado na cascata
RouteLLM	"roteador do LMSYS"	Biblioteca de código aberto para roteamento de modelos
Not Diamond	"roteador comercial"	Produto comercial SaaS voltado ao roteamento de LLMs
Desvio	"cheap creep"	Mudança no comportamento de entrada sem atualização do roteador, gerando queda de qualidade
Online quality gate	"validador ao vivo"	Amostragem de tráfego de produção avaliado por um LLM-judge automático

Leitura Adicional

AbhyashSuchi — Model Routing LLM 2026 Best Practices
Lukas Brunner — Rise of Inference Optimization 2026
RouteLLM paper / code
Not Diamond — model routing
OpenRouter — gateway integrado multi-modelo com primitivas de roteamento configuráveis.