Phase 17 - Lesson 16

Model Routing as a Cost-Reduction Primitive

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

Un corredor (broker) dinámico evalúa cada solicitud (tipo de tarea, longitud de tokens, similitud de embeddings, confianza) y envía consultas simples a un modelo barato, escalando las complejas a un modelo de frontera (frontier model). También se conoce como cascada de modelos (model cascading). Casos de estudio de producción apuntan a reducciones de costo de entre un 20% y un 60% con mantenimiento equivalente de calidad (iso-quality) en implementaciones en EE. UU./Reino Unido/UE; un incremento del 30% en la eficiencia de enrutamiento en SaaS de alto volumen se traduce en ahorros anuales de seis cifras. En el contexto de 2026, los precios de inferencia de LLM cayeron cerca de 10 veces al año — el token de nivel GPT-4 bajó de

0/M a ~$0.40/M entre finales de 2022 y 2026. La mayor parte de esta reducción se debe a pilas de servicio optimizadas (Fase 17 · 04-09), no al hardware. El enrutamiento es la forma de convertir esa caída de precios en margen sin comprometer el producto. El principal modo de fallo es el desvío del modelo barato (cheap-model drift): el enrutador envía el 40% del tráfico a un modelo más débil, la calidad cae del 3% al 5% en tareas de razonamiento, y nadie se da cuenta del cambio por meses. Proteja los enrutamientos con métricas de calidad en tiempo real (online quality gates), no solo con conjuntos de pruebas offline (eval sets).

Type: Learn Languages: Python (stdlib, toy cascading router simulator) Prerequisites: Phase 17 · 01 (Managed LLM Platforms), Phase 17 · 19 (AI Gateways) Time: ~60 minutos

Learning Objectives

Explicar el funcionamiento de la cascada de modelos (model cascading): ejecución en el modelo barato primero con verificación de confianza, escalando al de frontera en caso de baja confianza.
Enumerar las cuatro señales de enrutamiento (clasificación de tarea, longitud del prompt, similitud de embeddings con un conjunto de casos difíciles y autoconfianza de primera pasada).
Calcular el costo mixto esperado con base en las tasas de enrutamiento y en la tolerancia a pérdidas de calidad.
Identificar la métrica de monitoreo de desvíos (online quality gate) para contener el desvío del modelo barato.

El Problema

Tu servicio cuesta $80,000 al mes ejecutándose en GPT-5. Tus datos de análisis apuntan a que el 70% de las solicitudes son triviales: "¿qué hora es en París?" "¿reescribe esta frase?". Un modelo de la clase Haiku resuelve esas llamadas con perfección al 3% del costo de GPT-5. Solo el 30% de las llamadas exige la capacidad de razonamiento avanzado de GPT-5 — desarrollo de software, matemáticas, planificación de múltiples pasos.

Al dirigir el 70% simple al modelo barato y el 30% complejo al de frontera, tu factura disminuye ~65% manteniendo el mismo nivel de calidad del producto. Esto es enrutamiento de modelos. El desafío es estructurar el corredor dinámico sin perjudicar la entrega.

El Concepto

Cuatro señales de enrutamiento

Clasificación de tareas: simple/compleja/programación/matemáticas/chat. Puede realizarse mediante un clasificador basado en reglas, por un pequeño LLM (clase Haiku a $0.25/M) o por similitud de embeddings con grupos pre-etiquetados. Salida: ruta = barato / balanceado / frontera.
Longitud del prompt: prompts con más de 4K tokens suelen exigir modelos de frontera para mantener la coherencia general. Prompts cortos con menos de 500 tokens generalmente no lo necesitan.
Similitud de embeddings con conjunto de casos difíciles: si el prompt de entrada es similar (similitud de coseno > 0.88) a un repositorio conocido de consultas complejas (known-hard set), escálalo directamente al de frontera.
Autoconfianza de primera pasada: envía la pregunta al modelo barato; si la probabilidad de tokens (log-probs) apunta a baja confianza, rechazo de respuesta o uso de lenguaje evasivo, intenta nuevamente con el modelo de frontera. Esta estrategia añade latencia P95 en ~10% de las solicitudes generales, pero reduce el costo en más del 50% en el otro 90% de las llamadas.

Tres patrones de enrutamiento

Enrutamiento previo / Pre-route (clasificador en la entrada): añade ~5-10ms de latencia de procesamiento interno; representa el enfoque de menor tiempo de respuesta de extremo a extremo.

Cascada / Cascade (barato primero, escalando bajo baja confianza): añade ~1.2x a la latencia mediana (ejecución de bajo costo más etapa de validación) y ~2x en las llamadas escaladas. Representa el mejor control de calidad básica del sistema.

Enrutamiento en conjunto / Ensemble route (ejecución paralela en ambos modelos para muestreo y selección mediante modelo de recompensa): genera mayor calidad de salida y el mayor costo general; recomendado solo para pruebas A/B críticas.

Implantación

Las puertas de enlace de IA (Fase 17 · 19) exponen el enrutamiento de forma nativa. LiteLLM posee configuración de router con fallback y enrutamiento por costo. Portkey ofrece barreras de control (guards) y enrutamiento. La puerta de enlace Kong AI cuenta con plugins dedicados. La tienda de modelos de OpenRouter expone una API de recomendación de rutas.

Repositorios de código abierto: RouteLLM (LMSYS), Not Diamond (comercial), Prompt Mule.

La curva de precios de 2026

Clase de modelo	Finales de 2022	2026	Evolución
Calidad nivel GPT-4	~ 0/M	~$0.40/M	50x más barato
Frontera (GPT-5, Claude 4)	—	~$3-10/M	nueva categoría

La mayor parte de este beneficio proviene de la eficiencia en la entrega y servicio de modelos — los pilares presentados en la Fase 17 · 04-09 fueron implementados por los proveedores. El enrutamiento permite capturar esos ahorros en la capa de aplicación, sin la necesidad de migrar a todos los usuarios manualmente al nivel barato.

El desvío del modelo es el verdadero riesgo

Tu enrutador destina el 40% de las llamadas al modelo económico. A lo largo de seis meses, el comportamiento de los usuarios cambia (formulan preguntas más complejas y prompts más largos). El enrutador no percibe el desvío porque su clasificador interno fue entrenado al principio del año. La calidad general del producto cae silenciosamente, sin quejas explícitas de inmediato, hasta que descubres en pruebas comparativas que perdiste mercado frente a un competidor.

Monitorea los enrutamientos con métricas activas en tiempo real (online quality gates):

Evaluación de usuarios (botones de feedback positivo/negativo) segmentadas por ruta.
LLM-judge automatizado ejecutándose sobre una muestra (5%) de validación de cada ruta.
Tasa de escalada: si el flujo en cascada está escalando más del 30% de las llamadas, el modelo barato está recibiendo más tareas de las que puede procesar.
Tasa de rechazo de respuestas por ruta.

Números que deberías recordar

Ahorro medio por enrutamiento en 2026 (iso-quality): de 20% a 60% según casos prácticos.
Caída de precio de LLM entre 2022 y 2026: ~10 veces al año en términos agregados.
Token nivel GPT-4 in 2022 vs 2026: ~ 0/M → ~$0.40/M.
Impacto de latencia en cascada: ~1.2x latencia mediana, ~2x en las llamadas escaladas (cerca del 10% del tráfico).

Pruébalo

code/main.py simula los enfoques de pre-route, cascade y ensemble bajo cargas de trabajo variadas. Reporta el costo mixto de tokens, la pérdida de calidad y la tasa de escalada final.

Envíalo a Producción

Esta lección produce outputs/skill-router-plan.md. Dadas las especificidades de una carga de trabajo y el presupuesto de calidad del producto, diseña un patrón de enrutamiento y mapea las señales correspondientes.

Ejercicios

Ejecuta code/main.py. ¿Bajo qué umbral de precisión el enfoque de cascada supera al pre-route simple?
Tu base de usuarios está compuesta por un 30% de clientes corporativos (con llamadas complejas) y un 70% de usuarios gratuitos (con llamadas simples). Diseña la estructura del enrutador. ¿Qué métrica activa (online metric) controlará las rutas?
Un cambio de ruta disminuye la calidad de respuesta en un 2% pero genera un ahorro del 40% en el costo de infraestructura. ¿Debería implantarse ese ajuste? La respuesta depende del tipo de producto — defiende ambos puntos de vista.
Desarrolla una validación de confianza en código extrayendo las probabilidades de log (logprobs) en las APIs de OpenAI / Anthropic. ¿Qué valor de umbral (threshold) utilizarías inicialmente?
En un intervalo de seis meses, la tasa de escalada del enrutador saltó del 8% al 22%. Apunta tres causas probables para ese cambio y la respectiva corrección para cada una.

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Enrutamiento de modelos	"corredor de costo"	Selección dinámica del modelo ideal para responder a cada prompt
Cascada de modelos	"barato con escala"	Ejecutar el modelo barato primero y accionar el modelo avanzado si la confianza es baja
Enrutamiento previo	"clasificar antes"	Uso de un clasificador ligero en la entrada de la llamada; evita reejecución
Enrutamiento en conjunto	"prueba paralela"	Ejecución paralela en múltiples modelos con selección de la respuesta ideal por modelo de recompensa
Tasa de escalada	"porcentaje escalado"	Proporción de solicitudes enviadas al modelo avanzado en la cascada
RouteLLM	"enrutador del LMSYS"	Biblioteca de código abierto para enrutamiento de modelos
Not Diamond	"enrutador comercial"	Producto comercial SaaS enfocado al enrutamiento de LLM
Desvío	"cheap creep"	Cambio en el comportamiento de entrada sin actualización del enrutador, generando caída de calidad
Online quality gate	"validador en vivo"	Muestreo de tráfico de producción evaluado por un LLM-judge automático

Lecturas Recomendadas

AbhyashSuchi — Model Routing LLM 2026 Best Practices
Lukas Brunner — Rise of Inference Optimization 2026
RouteLLM paper / code
Not Diamond — model routing
OpenRouter — puerta de enlace integrada multimodelo con primitivas de enrutamiento configurables.