Phase 11 - Lesson 13

Construyendo una Aplicación de LLM en Producción

Has construido prompts, embeddings, pipelines de RAG, llamadas de función (function calling), capas de caché y guardrails. Por separado. En aislamiento. Como practicar escalas de guitarra sin tocar nunca una canción. Esta lección es la canción. Conectarás cada componente de las Lecciones 01 a 12 en un único servicio listo para producción. No un juguete. No una demostración. Un sistema que maneja tráfico real, falla con gracia, transmite (streams) tokens, realiza un seguimiento de costos y sobrevive a sus primeros 10,000 usuarios.

Tipo: Construcción (Capstone) Idiomas: Python Prerrequisitos: Fase 11 Lecciones 01-15 Tiempo: ~120 minutos Relacionado: Fase 11 · 14 (MCP) para reemplazar esquemas de herramientas personalizados con un protocolo compartido; Fase 11 · 15 (Caché de Prompt) para una reducción de costos del 50-90% en prefijos estables. Ambos son esperados en cada pila seria de producción de 2026.

Objetivos de Aprendizaje

Conectar todos los componentes de la Fase 11 (prompts, RAG, llamadas de función, caché, guardrails) en un único servicio listo para producción
Implementar la entrega de tokens por streaming, el manejo de errores de forma estructurada y la gestión de tiempos de espera (timeout) de solicitudes
Incorporar observabilidad en la aplicación: registro de solicitudes, seguimiento de costos, percentiles de latencia y paneles de tasa de errores
Desplegar la aplicación con verificaciones de salud (health checks), limitación de tasa (rate limiting) y una estrategia de contingencia (fallback) ante caídas del proveedor

El Problema

Construir una funcionalidad de LLM toma una tarde. Lanzar un producto de LLM a producción toma meses.

La brecha no es la inteligencia. Es la infraestructura. Tu prototipo llama a OpenAI, obtiene una respuesta, la imprime. Funciona en tu laptop. Luego llega la realidad:

Un usuario envía un documento de 50,000 tokens. Tu ventana de contexto se desborda.
Dos usuarios hacen la misma pregunta con 4 segundos de diferencia. Pagas por ambos.
La API devuelve un error 500 a las 2 a.m. Tu servicio se cae.
Un usuario le pide al modelo que genere SQL. El modelo produce DROP TABLE users.
Tu factura mensual llega a
2,000 y no tienes idea de qué funcionalidad lo causó.
El tiempo de respuesta promedio es de 8 segundos. Los usuarios se van después de 3.

Cada aplicación de LLM en producción hoy en día -- Perplexity, Cursor, ChatGPT, Notion AI -- resolvió estos problemas. No siendo más inteligente con los prompts. Sino siendo riguroso con la ingeniería.

Este es el capstone. Construirás un servicio de LLM de producción completo que integra la gestión de prompts (L01-02), embeddings y búsqueda vectorial (L04-07), llamadas de función (L09), evaluación (L10), almacenamiento en caché (L11), guardrails (L12), streaming, manejo de errores, observabilidad y seguimiento de costos. Un solo servicio. Todos los componentes conectados entre sí.

El Concepto

Arquitectura de Producción

Cada aplicación seria de LLM sigue el mismo flujo. Los detalles varían. La estructura no.

graph LR
    Client["Cliente<br/>(Web, Móvil, API)"]
    GW["API Gateway<br/>Autenticación + Límite de Tasa"]
    PR["Enrutador de Prompts<br/>Selección de Plantilla"]
    Cache["Caché Semántica<br/>Búsqueda de Embeddings"]
    LLM["Llamada a LLM<br/>Streaming"]
    Guard["Guardrails<br/>Entrada + Salida"]
    Eval["Registrador de Eval<br/>Seguimiento de Calidad"]
    Cost["Rastreador de Costos<br/>Contabilidad de Tokens"]
    Resp["Respuesta<br/>Flujo SSE"]

    Client --> GW --> Guard
    Guard -->|Verificación de Entrada| PR
    PR --> Cache
    Cache -->|Hit| Resp
    Cache -->|Miss| LLM
    LLM --> Guard
    Guard -->|Verificación de Salida| Eval
    Eval --> Cost --> Resp

La solicitud ingresa a través de una puerta de enlace de API (API gateway) que maneja la autenticación y la limitación de tasa. Los guardrails de entrada verifican si hay inyecciones de prompts y contenido prohibido antes de que el enrutador de prompts seleccione la plantilla correcta. Una caché semántica verifica si se respondió una pregunta similar recientemente. Si hay una falla en la caché (cache miss), se llama a la LLM con el streaming habilitado. Los guardrails de salida validan la respuesta. El registrador de evaluación registra las métricas de calidad. El rastreador de costos registra cada token. La respuesta se transmite de vuelta al cliente en tiempo real.

Siete componentes. Cada uno es una lección que ya completaste. La ingeniería está en cómo se conectan entre sí.

La Pila

Componente	Lección	Tecnología	Propósito
Servidor de API	--	FastAPI + Uvicorn	Endpoints HTTP, streaming SSE, verificaciones de salud
Plantillas de Prompts	L01-02	Jinja2 / plantillas de cadenas	Gestión de prompts versionada con inyección de variables
Embeddings	L04	text-embedding-3-small	Similaridad semántica para caché y RAG
Almacenamiento de Vectores	L06-07	En memoria (prod: Pinecone/Qdrant)	Búsqueda de vecinos más cercanos para recuperación de contexto
Llamadas de Función	L09	Registro de herramientas + JSON Schema	Acceso a datos externos, acciones estructuradas
Evaluación	L10	Métricas personalizadas + registro	Seguimiento de calidad de respuesta, latência y precisión
Almacenamiento en Caché	L11	Caché semántica (basada en embeddings)	Evitar llamadas redundantes a la LLM, reducir costos y latencia
Guardrails	L12	Regex + reglas de clasificador	Bloquear inyección de prompts, PII, contenido inseguro
Rastreador de Costos	L11	Contador de tokens + tabla de precios	Contabilidad de costos por solicitud y agregados
Streaming	--	Server-Sent Events (SSE)	Entrega token por token, primer token en menos de un segundo

Streaming: Por Qué Importa

Una respuesta de GPT-5 con 500 tokens de salida tarda de 3 a 8 segundos en generarse por completo. Sin streaming, el usuario se queda mirando un indicador de carga durante todo el tiempo. Con streaming, el primer token llega en 200-500 ms. El tiempo total es el mismo. La latencia percibida disminuye en un 90%.

sequenceDiagram
    participant C as Cliente
    participant S as Servidor
    participant L as API de LLM

    C->>S: POST /chat (stream=true)
    S->>L: Llamada a API (stream=true)
    L-->>S: token: "The"
    S-->>C: SSE: data: {"token": "The"}
    L-->>S: token: " capital"
    S-->>C: SSE: data: {"token": " capital"}
    L-->>S: token: " of"
    S-->>C: SSE: data: {"token": " of"}
    Note over L,S: ...continúa token por token...
    L-->>S: [DONE]
    S-->>C: SSE: data: [DONE]

Tres protocolos para streaming:

Protocolo	Latencia	Complejidad	Cuándo Usar
Server-Sent Events (SSE)	Baja	Baja	La mayoría de las aplicaciones de LLM. Unidirecional, basado en HTTP, funciona en todas partes
WebSockets	Baja	Media	Necesidades bidireccionales: voz, colaboración en tiempo real
Long Polling	Alta	Baja	Clientes heredados que no pueden manejar SSE o WebSockets

SSE es la opción predeterminada. OpenAI, Anthropic y Google transmiten a través de SSE. Tu servidor recibe fragmentos (chunks) de la API de LLM y los reenvía al cliente como eventos SSE. El cliente utiliza EventSource (navegador) o httpx (Python) para consumir el flujo.

Manejo de Errores: Las Tres Capas

Las aplicaciones de LLM en producción fallan de tres formas distintas. Cada una requiere una estrategia de recuperación diferente.

Capa 1: Fallas de API. El proveedor de LLM devuelve 429 (límite de tasa), 500 (error del servidor) o agota el tiempo de espera. Solución: retroceso exponencial (exponential backoff) con fluctuación (jitter). Comienza en 1 segundo, duplica cada intento y añade una fluctuación aleatoria para evitar el efecto de avalancha (thundering herd). Máximo 3 intentos.

Attempt 1: immediate
Attempt 2: 1s + random(0, 0.5s)
Attempt 3: 2s + random(0, 1.0s)
Attempt 4: 4s + random(0, 2.0s)
Give up: return fallback response

Capa 2: Fallas del modelo. El modelo devuelve JSON malformado, alucina el nombre de una función o produce una salida que falla la validación. Solución: reintentar con un prompt corregido. Incluye el error en el mensaje de reintento para que el modelo pueda autocorregirse.

Capa 3: Fallas de la aplicación. Un servicio descendente (downstream) es inaccesible, el almacenamiento de vectores está lento o un guardrail lanza una excepción. Solución: degradación de servicio controlada (graceful degradation). Si el contexto RAG no está disponible, continúa sin él. Si la caché no funciona, omítela. Nunca permitas que un sistema secundario detenga el flujo primario.

Falla	¿Reintentar?	Fallback	Impacto en el Usuario
API 429 (límite de tasa)	Sí, con backoff	Encolar la solicitud	"Procesando, por favor espere..."
API 500 (error del servidor)	Sí, 3 intentos	Cambiar al modelo de contingencia	Transparente para el usuario
Timeout de API (>30s)	Sí, 1 intento	Prompt más corto, modelo más pequeño	Calidad ligeramente inferior
Salida malformada	Sí, con contexto del error	Devolver texto sin formato	Problemas menores de formato
Bloqueo por guardrail	No	Explicar por que se bloqueó la solicitud	Mensaje de error claro
Almacenamiento de vectores caído	Sin reintento en almacenamiento	Omitir contexto RAG	Menor calidad, aún funcional
Caché caída	Sin reintento en caché	Llamada directa a LLM	Mayor latencia, mayor costo

Cadena de modelos de contingencia (fallback). Cuando tu modelo principal no esté disponible, sigue la cadena:

claude-sonnet-4-20250514 -> gpt-4o -> gpt-4o-mini -> cached response -> "Service temporarily unavailable"

Cada paso intercambia calidad por disponibilidad. El usuario siempre obtiene una respuesta.

Observabilidad: Qué Medir

No puedes mejorar lo que no puedes ver. Cada aplicación de LLM en producción necesita tres pilares de observabilidad.

Registro estructurado. Cada solicitud genera una entrada de registro JSON con: ID de solicitud, ID de usuario, nombre de la plantilla del prompt, modelo utilizado, tokens de entrada, tokens de salida, latencia (ms), acierto/falla de caché (hit/miss), aprobación/falla del guardrail, costo (USD) y cualquier error.

Seguimiento (Tracing). Una sola solicitud de usuario toca entre 5 y 8 componentes. Los seguimientos de OpenTelemetry te permiten ver el viaje completo: ¿cuánto tiempo tomó el embedding? ¿Fue un acierto de caché? ¿Cuánto duró la llamada a la LLM? ¿El guardrail añadió latencia? Sin tracing, depurar problemas de producción es pura adivinanza.

Panel de métricas. Los cinco números que todo equipo de LLM vigila:

Métrica	Meta	Por qué
Latencia P50	< 2s	Experiencia del usuario promedio
Latencia P99	< 10s	La latencia de cola impulsa la pérdida de usuarios (churn)
Tasa de aciertos de caché (hit rate)	> 30%	Ahorro directo de costos
Tasa de bloqueo de guardrails	< 5%	Demasiado alta = falsos positivos molestando a los usuarios
Costo por solicitud	< $0.01	Viabilidad de la economía unitaria

Pruebas A/B de Prompts en Producción

Tu prompt no está terminado cuando funciona. Está terminado cuando tienes datos que prueban que supera a la alternativa.

Modo sombra (Shadow mode). Ejecuta un nuevo prompt en el 100% del tráfico pero solo registra los resultados -- no los muestres a los usuarios. Compara las métricas de calidad contra el prompt actual. Sin riesgo para el usuario, datos completos.

Despliegue porcentual (Percentage rollout). Dirige el 10% del tráfico al nuevo prompt. Monitorea las métricas. Si la calidad se mantiene, aumenta al 25%, luego al 50% y finalmente al 100%. Si la calidad disminuye, reversión instantánea.

graph TD
    R["Solicitud Entrante"]
    H["Hash(user_id) mod 100"]
    A["Prompt v1 (90%)"]
    B["Prompt v2 (10%)"]
    L["Registrar Ambos Resultados"]
    
    R --> H
    H -->|0-89| A
    H -->|90-99| B
    A --> L
    B --> L

Utiliza un hash determinista del ID de usuario, no una selección aleatoria. Esto garantiza que cada usuario tenga una experiencia consistente en las solicitudes dentro del mismo experimento.

Ejemplos Reales de Arquitectura

Perplexity. Ingresa la consulta del usuario. Un motor de búsqueda recupera entre 10 y 20 páginas web. Las páginas se dividen en fragmentos (chunks), se convierten en embeddings y se reordenan (reranked). Los 5 fragmentos principales se convierten en el contexto RAG. La LLM genera una respuesta con citas, que se transmite de vuelta en tiempo real. Dos modelos: uno rápido para la reformulación de consultas de búsqueda, uno robusto para la síntesis de respuestas. Estimación de más de 50 millones de consultas diarias.

Cursor. El archivo abierto, los archivos circundantes, las ediciones recientes y la salida del terminal forman el contexto. Un enrutador de prompts decide: un modelo pequeño para autocompletado (Cursor-small, ~20ms), un modelo grande para el chat (Claude Sonnet 4.6 / GPT-5, ~3s). El contexto se comprime agresivamente -- solo las secciones de código relevantes, no archivos completos. Los embeddings de la base de código proporcionan contexto de largo alcance. Las ediciones especulativas transmiten diffs, no archivos completos. La integración con MCP permite que herramientas de terceros se conecten sin cambios de código por herramienta.

ChatGPT. Plugins, llamadas de función y servidores MCP permiten que el modelo acceda a la web, ejecute código, genere imágenes y consulte bases de datos. Una capa de enrutamiento decide qué capacidades invocar. La memoria persiste las preferencias del usuario a través de las sesiones. El prompt del sistema tiene más de 1,500 tokens de reglas de comportamiento, almacenados en caché a través de caché de prompts. Múltiples modelos atienden diferentes características: GPT-5 para chat, GPT-Image para imágenes, Whisper para voz, o4-mini para razonamiento profundo.

Escalabilidad

Escala	Arquitectura	Infraestructura
0-1K DAU	Un solo servidor FastAPI, llamadas síncronas	1 VM, $50/mes
1K-10K DAU	FastAPI asíncrono, caché semántica, cola	2-4 VMs + Redis, $500/mes
10K-100K DAU	Escalado horizontal, balanceador de carga, workers asíncronos	Kubernetes, $5K/mes
100K+ DAU	Multirregión, enrutamiento de modelos, inferencia dedicada	Infraestructura personalizada, $50K+/mes

Patrones clave de escalado:

Asincronía en todas partes. Nunca bloquees un hilo de servidor web en una llamada a una LLM. Usa asyncio y httpx.AsyncClient.
Procesamiento basado en colas. Para tareas que no son en tiempo real (resumen, análisis), envíalas a una cola (Redis, SQS) y procésalas con workers. Devuelve un ID de trabajo (job ID), permitiendo al cliente realizar consultas periódicas (polling).
Pool de conexiones (Connection pooling). Reutiliza conexiones HTTP con proveedores de LLM. Crear una nueva conexión TLS por solicitud agrega entre 100 y 200 ms.
Escalado horizontal. Las aplicaciones de LLM están limitadas por E/S (I/O bound), no por CPU. Un solo servidor asíncrono maneja más de 100 solicitudes concurrentes. Escala los servidores, no los núcleos.

Proyección de Costos

Antes de lanzar, estima tu costo mensual. Esta hoja de cálculo decide si tu modelo de negocio funciona.

Variable	Valor	Fuente
Usuarios Activos Diarios (DAU)	10,000	Analytics
Consultas por usuario al día	5	Analytics del producto
Promedio de tokens de entrada por consulta	1,500	Medido (sistema + contexto + usuario)
Promedio de tokens de salida por consulta	400	Medido
Precio de entrada por 1M de tokens	$5.00	Precios de GPT-5 de OpenAI
Precio de salida por 1M de tokens	5.00	Precios de GPT-5 de OpenAI
Tasa de aciertos de caché (hit rate)	35%	Medida a partir de métricas de caché
Consultas diarias efectivas	32,500	50,000 * (1 - 0.35)

Costo mensual de LLM:

Entrada: 32,500 consultas/día x 1,500 tokens x 30 días / 1M x

#	Elemento	Categoría
1	Claves de API almacenadas en variables de entorno, no en el código	Seguridad
2	Limitación de tasa por usuario (por defecto 10-50 req/min)	Protección
3	Guardrails de entrada activos (inyección de prompts, PII)	Seguridad
4	Guardrails de salida activos (filtrado de contenido, validación de formato)	Seguridad
5	Caché semántica configurada y probada	Costo
6	Streaming habilitado para todos los endpoints de chat	Experiencia del Usuario (UX)
7	Retroceso exponencial en todas las llamadas a la API de LLM	Confiabilidad
8	Cadena de modelos de contingencia (fallback) configurada	Confiabilidad
9	Registro estructurado con IDs de solicitud	Observabilidad
10	Seguimiento de costos por solicitud y por usuario	Negocios
11	Endpoint de verificación de salud que devuelve el estado de las dependencias	Operaciones
12	Límites máximos de tokens en la entrada y en la salida	Costo/Seguridad
13	Tiempo de espera (timeout) en todas las llamadas externas (por defecto 30s)	Confiabilidad
14	CORS configurado solo para dominios de producción	Seguridad
15	Prueba de carga aprobada con 100 usuarios concurrentes	Rendimiento

Término	Lo que la gente dice	Lo que realmente significa
API Gateway	"El frontend"	El punto de entrada que maneja la autenticación, limitación de tasa, CORS y enrutamiento de solicitudes antes de que se ejecute cualquier lógica de LLM
Enrutador de Prompts	"Selector de plantillas"	Lógica que elige la plantilla de prompt correcta según el tipo de solicitud, la asignación de experimentos A/B y el contexto del usuario
Caché Semántica	"Caché inteligente"	Una caché indexada por similitud de embeddings en lugar de coincidencia exacta de cadenas -- dos preguntas idénticas expresadas de manera diferente devuelven la misma respuesta en caché
SSE (Server-Sent Events)	"Streaming"	Un protocolo HTTP unidireccional donde el servidor envía eventos al cliente -- utilizado por OpenAI, Anthropic y Google para la entrega token por token
Retroceso Exponencial (Exponential Backoff)	"Lógica de reintentos"	Esperar 1s, 2s, 4s, 8s entre reintentos (duplicando cada vez) con fluctuación aleatoria (jitter) para evitar que todos los clientes reintenten al mismo tiempo
Cadena de Contingencia (Fallback)	"Cascada de modelos"	Una lista ordenada de modelos probados en secuencia -- cuando falla el primario, se pasa a alternativas más baratas o más disponibles
Degradación Controlada	"Manejo de fallas parciales"	Cuando un componente secundario falla (caché, RAG, guardrails), el sistema continúa con una funcionalidad reducida en lugar de fallar por completo
Costo por Solicitud	"Economía unitaria"	El gasto total de LLM (tokens de entrada + tokens de salida según los precios del modelo) para una sola solicitud de usuario -- el número que determina si tu modelo de negocio funciona
Modo Sombra (Shadow Mode)	"Lanzamiento oscuro"	Ejecutar un nuevo prompt o modelo con tráfico real pero solo registrando los resultados, sin mostrarlos a los usuarios -- pruebas A/B libres de riesgos
Verificación de Salud (Health Check)	"Sonda de preparación"	Un endpoint que devuelve el estado de todas las dependencias (caché, disponibilidad de LLM, guardrails) -- utilizado por balanceadores de carga y Kubernetes para enrutar el tráfico

Construyendo una Aplicación de LLM en Producción

Objetivos de Aprendizaje

El Problema

El Concepto

Arquitectura de Producción

La Pila

Streaming: Por Qué Importa

Manejo de Errores: Las Tres Capas

Observabilidad: Qué Medir

Pruebas A/B de Prompts en Producción

Ejemplos Reales de Arquitectura

Escalabilidad

Proyección de Costos

La Lista de Verificación de Despliegue

Condrúyelo

Paso 1: Infraestructura Central

Paso 2: Gestión de Prompts

Paso 3: Caché Semántica

Paso 4: Guardrails

Paso 5: Llamador de LLM con Reintento y Streaming

Paso 6: El Pipeline de la Solicitud

Paso 7: Ejecutar la Demostración Completa

Cómo Usarlo

Servidor FastAPI (Despliegue en Producción)

Integración con API Real

Despliegue con Docker

Lanzamiento a Producción

Ejercicios

Términos Clave

Lecturas Adicionales