Plataformas de LLM Gestionadas — Bedrock, Vertex AI, Azure OpenAI
Tres proveedores de escala de internet (hyperscalers), tres estrategias distintas. AWS Bedrock es un marketplace de modelos: Claude, Llama, Titan, Stability y Cohere bajo una sola API. Azure OpenAI es una asociación exclusiva con OpenAI además de Unidades de Capacidad Provisionada (Provisioned Throughput Units - PTUs) para capacidad dedicada. Vertex AI es Gemini-first con la mejor propuesta de contexto largo y multimodal. En 2026, Artificial Analysis registra para Azure OpenAI una mediana de ~50 ms y para Bedrock ~75 ms en equivalentes de Llama 3.1 405B; las PTUs explican la diferencia debido a que la capacidad dedicada supera al sobredemanda compartido. La regla de decisión no es "cuál es el más rápido", sino "qué catálogo de modelos e interfaz de FinOps se adaptan a mi producto". Esta lección te enseña a elegir con los tradeoffs documentados, no por corazonadas.
Tipo: Aprender
Idiomas: Python (stdlib, comparador simple de costo y latencia)
Prerrequisitos: Fase 11 (Ingeniería de LLM), Fase 13 (Herramientas y Protocolos)
Tiempo: ~60 minutos
Objetivos de Aprendizaje
Nombrar las tres estrategias de plataforma (marketplace vs exclusiva vs Gemini-first) y asociar cada una a un caso de uso del producto.
Explicar qué te ofrecen las Unidades de Capacidad Provisionada (PTUs) en Azure OpenAI y por qué Bedrock bajo demanda suele funcionar ~25 ms más lento en la escala de modelos 405B.
Diagramar la interfaz de atribución de FinOps para cada plataforma (Application Inference Profiles de Bedrock vs proyecto GCP por equipo en Vertex vs escopos de Azure + reservas de PTU).
Redactar una política de "mínimo de dos proveedores" y explicar por qué la dependencia de un solo proveedor (lock-in) es un error costoso en 2026.
El Problema
Has elegido Claude 3.7 Sonnet para tu producto. Ahora necesitas servirlo. Puedes llamar a la API de Anthropic directamente, o a través de AWS Bedrock, o usar un gateway. La API directa es la más simple; Bedrock agrega BAAs, VPC endpoints, IAM y atribución de CloudWatch. El gateway agrega failover, facturación unificada y límites de peticiones entre proveedores.
La pregunta más profunda reside en el catálogo. Si necesitas Claude, Llama y Gemini en el mismo producto, no puedes contratarlos todos en un solo lugar a menos que utilices Bedrock más Vertex más Azure OpenAI simultáneamente. Los proveedores no son intercambiables: cada uno hizo una apuesta diferente sobre quién domina la capa de modelos.
Esta lección mapea las tres apuestas, la brecha de latencia, la brecha de FinOps y el riesgo de lock-in de proveedor.
El Concepto
Tres estrategias
AWS Bedrock — el marketplace. Claude (Anthropic), Llama (Meta), Titan (AWS propio), Stability (imagen), Cohere (embeddings), Mistral, además de subcatálogos de imagen y embeddings. Una sola API, un panel de IAM y exportación única a CloudWatch. La apuesta de Bedrock es que los clientes quieren opcionalidad más de lo que desean un único modelo.
Azure OpenAI — la asociación exclusiva. Obtienes acceso a GPT-4 / 4o / 5 / modelos de la serie o, DALL·E, Whisper y ajuste fino (fine-tuning) de modelos de OpenAI en los centros de datos de Azure. No hay modelos que no sean de OpenAI en el catálogo "Azure OpenAI Service" — esos van a Azure AI Foundry (un producto separado). La apuesta de Azure es que OpenAI seguirá en la frontera y que los clientes quieren controles empresariales en esa relación específica.
Vertex AI — Gemini primero, todo lo demás en segundo lugar. Gemini 1.5 / 2.0 / 2.5 Flash y Pro, además de Model Garden (modelos de terceros). La apuesta de Vertex reside en el contexto largo y multimodal: la ventana de contexto de 1 millón de tokens de Gemini es el gran diferenciador.
Brecha de latencia a escala
Artificial Analysis ejecuta benchmarks continuos. En despliegues equivalentes de Llama 3.1 405B (bajo demanda compartido), la latencia mediana para el primer token (TTFT) en Azure OpenAI es de aproximadamente 50 ms; en Bedrock, es de aproximadamente 75 ms. Esta brecha no es un fallo de AWS: es una diferencia en el modelo de asignación de capacidad. Azure comercializa PTUs (Provisioned Throughput Units), que reservan capacidad dedicada de GPU para tu entorno (tenant). El equivalente de Bedrock (Provisioned Throughput) existe, pero comienza en aproximadamente
1/hora por unidad, y la mayoría de los clientes permanecen en bajo demanda compartido.
La capacidad bajo demanda compartida compite con el tráfico de todos los demás clientes. La capacidad dedicada no sufre esta competencia. Si el SLA de TTFT de tu producto es < 100 ms en el percentil P99, contratas PTUs en Azure, compras capacidad provisionada (Provisioned Throughput) en Bedrock o aceptas la variación estándar.
Economía del Throughput Provisionado
Azure PTUs: un bloque reservado de cómputo de inferencia. Ahorros de hasta un ~70% en comparación con bajo demanda para cargas de trabajo previsibles. Costos fijos por hora, independientemente del volumen de tráfico: pagas por la reserva incluso cuando está inactiva. El punto de equilibrio (break-even) suele ocurrir en torno al 40-60% de utilización sostenida.
Provisioned Throughput de Bedrock: cuesta entre
1 y $50 por hora, dependiendo del modelo y la región. La lógica matemática es similar: el punto de equilibrio ocurre en torno a la mitad de la utilización de pico. Requiere compromiso mensual.
La capacidad provisionada de Vertex se vende por SKU de Gemini; el precio varía según el modelo y la región y se anuncia menos públicamente.
Interfaz de FinOps — el verdadero diferenciador
Los Application Inference Profiles de Bedrock ofrecen la atribución de costos más organizada del mercado. Identifica un perfil con etiquetas (tags) como team, product, feature; enruta todas las invocaciones de modelos a través de él; CloudWatch detallará los costos por perfil sin necesidad de posprocesamiento de datos. Agregado en 2025, sigue siendo la opción nativa más granular entre los proveedores.
La atribución de Vertex se basa en la estructura de proyecto GCP por equipo, combinada con etiquetas (labels) en todos los recursos. Modelas cada equipo como un proyecto GCP, etiquetas cada recurso y utilizas la exportación de facturación a BigQuery + Looker DataStudio para visualizaciones consolidadas. Requiere más esfuerzo de configuración, pero BigQuery te permite realizar consultas SQL libres sobre los datos de costos.
Azure se apoya en ámbitos de suscripción/grupos de recursos asociados a etiquetas, tratando las reservas de PTU como objetos de costo de primera clase. Las etiquetas se heredan de los grupos de recursos, no de las peticiones, por lo que la atribución por petición requiere el uso de métricas personalizadas de Application Insights o de un gateway que marque las cabeceras.
El patrón observado: Bedrock es la mejor solución nativa, Vertex es el más flexible a través de BigQuery y Azure es el más opaco a menos que configures instrumentación específica.
Lock-in de proveedor es el gran riesgo en 2026
Los compromisos exclusivos con un único proveedor tenían sentido cuando un solo modelo dominaba. En 2026, la frontera tecnológica cambia mensualmente: Claude 3.7 en un trimestre, Gemini 2.5 en el siguiente y GPT-5 en el posterior. Bloquearse en una plataforma significa aislarse de dos tercios del estado de la arte.
El patrón que los equipos de alto rendimiento adoptan: mínimo de dos proveedores para cualquier llamada crítica de LLM en el producto. Bedrock más Azure OpenAI es el par común: Claude de un lado, GPT del otro, failover automático entre ellos usando el mismo gateway. El aumento de costos es insignificante porque el gateway realiza el enrutamiento óptimo; la ganancia de disponibilidad durante interrupciones (como el incidente de Azure OpenAI en enero de 2025 o el fallo de AWS en us-east-1) es decisiva.
Residencia de datos, BAAs y sectores regulados
Bedrock: ofrece acuerdos BAA en la mayoría de las regiones, VPC endpoints y guardrails integrados. Patrón común para el sector de fintechs.
Azure OpenAI: conformidad con HIPAA, SOC 2, ISO 27001, residencia de datos en la Unión Europea; patrón para grandes corporaciones reguladas.
Vertex: conformidad con HIPAA, GDPR, residencia de datos por región física; se apoya en la robusta pila de conformidad de Google Cloud.
Los tres cumplen con los requisitos regulatorios básicos de conformidad. Las diferencias radican en las políticas de retención de datos, cómo se manipulan los logs de llamadas y si los sistemas de monitoreo de abuso (abuse-monitoring) escanean tu tráfico (activado por defecto en la mayoría; opción de desactivación bajo solicitud para planes corporativos).
Números que debes recordar
Latencia mediana de TTFT en Azure OpenAI para equivalentes de Llama 3.1 405B: ~50 ms (con PTUs).
Latencia mediana de TTFT en Bedrock bajo demanda: ~75 ms.
Provisioned Throughput en Bedrock:
1-$50/hora por unidad.
Punto de equilibrio (break-even) de la PTU de Azure: ~40-60% de utilización sostenida.
Ahorros de la PTU frente al bajo demanda bajo alta utilización: hasta el 70%.
Use It
El archivo code/main.py compara las tres plataformas bajo una carga de trabajo sintética: modela la economía de bajo demanda frente a PTU, la variación de TTFT y la fidelidad de atribución de FinOps. Ejecútalo para visualizar dónde se pagan las PTUs y dónde la variedad de modelos de Bedrock compensa la brecha de TTFT.
Ship It
Esta lección produce el archivo outputs/skill-managed-platform-picker.md. A partir de un perfil de carga de trabajo (modelos necesarios, SLA de TTFT, volumen diario, requisitos de conformidad), recomienda una plataforma principal, una alternativa de fallback y un plan de instrumentación de FinOps.
Ejercicios
Ejecuta code/main.py. ¿Con qué porcentaje de utilización sostenida la PTU de Azure supera al bajo demanda para un modelo de la clase 70B? Calcula el punto de equilibrio y compáralo con el rango del 40-60% divulgado.
Tu producto necesita Claude 3.7 Sonnet y GPT-4o. Diseña un despliegue con dos proveedores: ¿qué modelo va a qué proveedor, qué gateway gestiona el frente y cuál es la política de failover?
Un cliente regulado del sector salud exige BAAs, residencia de datos en EE. UU. (US-East) y TTFT P99 por debajo de 100 ms. Elige una plataforma y justifica la decisión con tres características específicas.
Descubres que tu factura de Bedrock de este mes subió 4 veces sin ningún cambio en el tráfico de datos. Sin el uso de Application Inference Profiles, ¿cómo identificarías el origen de los costos? Con perfiles activos, ¿cuánto tiempo toma?
Accede a las páginas de precios de Azure OpenAI y Bedrock. Para una carga de trabajo de 100 millones de tokens/mes de Claude, ¿qué opción presenta el menor costo: la API directa de Anthropic, Bedrock bajo demanda o Bedrock Provisioned Throughput?
Términos Clave
Término
Lo que dice la gente
Lo que realmente significa
Bedrock
"Servicio de LLM de AWS"
Marketplace de modelos que abarca Claude, Llama, Titan, Mistral y Cohere
Azure OpenAI
"ChatGPT de Azure"
Modelos exclusivos de OpenAI en los centros de datos de Azure con controles empresariales
Vertex AI
"LLM de Google"
Plataforma centrada en Gemini con Model Garden para acceso a modelos de terceros
PTU
"Capacidad dedicada"
Provisioned Throughput Unit — reserva dedicada de GPUs para inferencia, facturada por hora
Application Inference Profile
"Etiquetado de Bedrock"
Perfil de costos y uso por producto utilizando etiquetas, integrado nativamente en CloudWatch
Model Garden
"Catálogo de Vertex"
Sección de modelos de terceros de Vertex AI, separada de los modelos Gemini nativos
Mínimo de dos proveedores
"Redundancia de LLM"
Política de ejecutar todas las rutas críticas de LLM en al menos dos proveedores
BAA
"Documentación para HIPAA"
Business Associate Agreement; contrato requerido para información de salud protegida (PHI)
Abuse monitoring
"Monitor de logs"
Escaneo de seguridad del proveedor en los prompts y salidas; desactivación disponible para planes corporativos
Lectura Adicional
AWS Bedrock Pricing — tabla de precios oficial y valores de Provisioned Throughput.