Phase 17 - Lesson 01

Plataformas de LLM Gestionadas — Bedrock, Vertex AI, Azure OpenAI

Tres proveedores de escala de internet (hyperscalers), tres estrategias distintas. AWS Bedrock es un marketplace de modelos: Claude, Llama, Titan, Stability y Cohere bajo una sola API. Azure OpenAI es una asociación exclusiva con OpenAI además de Unidades de Capacidad Provisionada (Provisioned Throughput Units - PTUs) para capacidad dedicada. Vertex AI es Gemini-first con la mejor propuesta de contexto largo y multimodal. En 2026, Artificial Analysis registra para Azure OpenAI una mediana de ~50 ms y para Bedrock ~75 ms en equivalentes de Llama 3.1 405B; las PTUs explican la diferencia debido a que la capacidad dedicada supera al sobredemanda compartido. La regla de decisión no es "cuál es el más rápido", sino "qué catálogo de modelos e interfaz de FinOps se adaptan a mi producto". Esta lección te enseña a elegir con los tradeoffs documentados, no por corazonadas.

Tipo: Aprender Idiomas: Python (stdlib, comparador simple de costo y latencia) Prerrequisitos: Fase 11 (Ingeniería de LLM), Fase 13 (Herramientas y Protocolos) Tiempo: ~60 minutos

Objetivos de Aprendizaje

Nombrar las tres estrategias de plataforma (marketplace vs exclusiva vs Gemini-first) y asociar cada una a un caso de uso del producto.
Explicar qué te ofrecen las Unidades de Capacidad Provisionada (PTUs) en Azure OpenAI y por qué Bedrock bajo demanda suele funcionar ~25 ms más lento en la escala de modelos 405B.
Diagramar la interfaz de atribución de FinOps para cada plataforma (Application Inference Profiles de Bedrock vs proyecto GCP por equipo en Vertex vs escopos de Azure + reservas de PTU).
Redactar una política de "mínimo de dos proveedores" y explicar por qué la dependencia de un solo proveedor (lock-in) es un error costoso en 2026.

El Problema

Has elegido Claude 3.7 Sonnet para tu producto. Ahora necesitas servirlo. Puedes llamar a la API de Anthropic directamente, o a través de AWS Bedrock, o usar un gateway. La API directa es la más simple; Bedrock agrega BAAs, VPC endpoints, IAM y atribución de CloudWatch. El gateway agrega failover, facturación unificada y límites de peticiones entre proveedores.

La pregunta más profunda reside en el catálogo. Si necesitas Claude, Llama y Gemini en el mismo producto, no puedes contratarlos todos en un solo lugar a menos que utilices Bedrock más Vertex más Azure OpenAI simultáneamente. Los proveedores no son intercambiables: cada uno hizo una apuesta diferente sobre quién domina la capa de modelos.

Esta lección mapea las tres apuestas, la brecha de latencia, la brecha de FinOps y el riesgo de lock-in de proveedor.

El Concepto

Tres estrategias

AWS Bedrock — el marketplace. Claude (Anthropic), Llama (Meta), Titan (AWS propio), Stability (imagen), Cohere (embeddings), Mistral, además de subcatálogos de imagen y embeddings. Una sola API, un panel de IAM y exportación única a CloudWatch. La apuesta de Bedrock es que los clientes quieren opcionalidad más de lo que desean un único modelo.

Azure OpenAI — la asociación exclusiva. Obtienes acceso a GPT-4 / 4o / 5 / modelos de la serie o, DALL·E, Whisper y ajuste fino (fine-tuning) de modelos de OpenAI en los centros de datos de Azure. No hay modelos que no sean de OpenAI en el catálogo "Azure OpenAI Service" — esos van a Azure AI Foundry (un producto separado). La apuesta de Azure es que OpenAI seguirá en la frontera y que los clientes quieren controles empresariales en esa relación específica.

Vertex AI — Gemini primero, todo lo demás en segundo lugar. Gemini 1.5 / 2.0 / 2.5 Flash y Pro, además de Model Garden (modelos de terceros). La apuesta de Vertex reside en el contexto largo y multimodal: la ventana de contexto de 1 millón de tokens de Gemini es el gran diferenciador.

Brecha de latencia a escala

Artificial Analysis ejecuta benchmarks continuos. En despliegues equivalentes de Llama 3.1 405B (bajo demanda compartido), la latencia mediana para el primer token (TTFT) en Azure OpenAI es de aproximadamente 50 ms; en Bedrock, es de aproximadamente 75 ms. Esta brecha no es un fallo de AWS: es una diferencia en el modelo de asignación de capacidad. Azure comercializa PTUs (Provisioned Throughput Units), que reservan capacidad dedicada de GPU para tu entorno (tenant). El equivalente de Bedrock (Provisioned Throughput) existe, pero comienza en aproximadamente

Use It

El archivo code/main.py compara las tres plataformas bajo una carga de trabajo sintética: modela la economía de bajo demanda frente a PTU, la variación de TTFT y la fidelidad de atribución de FinOps. Ejecútalo para visualizar dónde se pagan las PTUs y dónde la variedad de modelos de Bedrock compensa la brecha de TTFT.

Ship It

Esta lección produce el archivo outputs/skill-managed-platform-picker.md. A partir de un perfil de carga de trabajo (modelos necesarios, SLA de TTFT, volumen diario, requisitos de conformidad), recomienda una plataforma principal, una alternativa de fallback y un plan de instrumentación de FinOps.

Ejercicios

Ejecuta code/main.py. ¿Con qué porcentaje de utilización sostenida la PTU de Azure supera al bajo demanda para un modelo de la clase 70B? Calcula el punto de equilibrio y compáralo con el rango del 40-60% divulgado.

Tu producto necesita Claude 3.7 Sonnet y GPT-4o. Diseña un despliegue con dos proveedores: ¿qué modelo va a qué proveedor, qué gateway gestiona el frente y cuál es la política de failover?

Un cliente regulado del sector salud exige BAAs, residencia de datos en EE. UU. (US-East) y TTFT P99 por debajo de 100 ms. Elige una plataforma y justifica la decisión con tres características específicas.

Descubres que tu factura de Bedrock de este mes subió 4 veces sin ningún cambio en el tráfico de datos. Sin el uso de Application Inference Profiles, ¿cómo identificarías el origen de los costos? Con perfiles activos, ¿cuánto tiempo toma?

Accede a las páginas de precios de Azure OpenAI y Bedrock. Para una carga de trabajo de 100 millones de tokens/mes de Claude, ¿qué opción presenta el menor costo: la API directa de Anthropic, Bedrock bajo demanda o Bedrock Provisioned Throughput?

Términos Clave

Término	Lo que dice la gente	Lo que realmente significa
Bedrock	"Servicio de LLM de AWS"	Marketplace de modelos que abarca Claude, Llama, Titan, Mistral y Cohere
Azure OpenAI	"ChatGPT de Azure"	Modelos exclusivos de OpenAI en los centros de datos de Azure con controles empresariales
Vertex AI	"LLM de Google"	Plataforma centrada en Gemini con Model Garden para acceso a modelos de terceros
PTU	"Capacidad dedicada"	Provisioned Throughput Unit — reserva dedicada de GPUs para inferencia, facturada por hora
Application Inference Profile	"Etiquetado de Bedrock"	Perfil de costos y uso por producto utilizando etiquetas, integrado nativamente en CloudWatch
Model Garden	"Catálogo de Vertex"	Sección de modelos de terceros de Vertex AI, separada de los modelos Gemini nativos
Mínimo de dos proveedores	"Redundancia de LLM"	Política de ejecutar todas las rutas críticas de LLM en al menos dos proveedores
BAA	"Documentación para HIPAA"	Business Associate Agreement; contrato requerido para información de salud protegida (PHI)
Abuse monitoring	"Monitor de logs"	Escaneo de seguridad del proveedor en los prompts y salidas; desactivación disponible para planes corporativos

Término

Lo que dice la gente

Lo que realmente significa

Bedrock

"Servicio de LLM de AWS"

Marketplace de modelos que abarca Claude, Llama, Titan, Mistral y Cohere

Azure OpenAI

"ChatGPT de Azure"

Modelos exclusivos de OpenAI en los centros de datos de Azure con controles empresariales

Vertex AI

"LLM de Google"

Plataforma centrada en Gemini con Model Garden para acceso a modelos de terceros

PTU

"Capacidad dedicada"

Provisioned Throughput Unit — reserva dedicada de GPUs para inferencia, facturada por hora

Application Inference Profile

"Etiquetado de Bedrock"

Perfil de costos y uso por producto utilizando etiquetas, integrado nativamente en CloudWatch

Model Garden

"Catálogo de Vertex"

Sección de modelos de terceros de Vertex AI, separada de los modelos Gemini nativos

Mínimo de dos proveedores

"Redundancia de LLM"

Política de ejecutar todas las rutas críticas de LLM en al menos dos proveedores

BAA

"Documentación para HIPAA"

Business Associate Agreement; contrato requerido para información de salud protegida (PHI)

Abuse monitoring

"Monitor de logs"

Escaneo de seguridad del proveedor en los prompts y salidas; desactivación disponible para planes corporativos

Lectura Adicional

AWS Bedrock Pricing — tabla de precios oficial y valores de Provisioned Throughput.

Azure OpenAI Service Pricing — economía de las PTUs y tablas tarifarias.

Vertex AI Generative AI Pricing — rangos tarifarios de Gemini y costos adicionales de Model Garden.

Artificial Analysis LLM Leaderboard — benchmarks continuos de latência y rendimiento entre diferentes proveedores.

The AI Journal — AWS Bedrock vs Azure OpenAI CTO Guide 2026 — marco de decisión para empresas.

Finout — Bedrock vs Vertex vs Azure FinOps — comparación lado a lado de los mecanismos de atribución de costos.

Plataformas de LLM Gestionadas — Bedrock, Vertex AI, Azure OpenAI

Objetivos de Aprendizaje

El Problema

El Concepto

Tres estrategias

Brecha de latencia a escala

Economía del Throughput Provisionado

Interfaz de FinOps — el verdadero diferenciador

Lock-in de proveedor es el gran riesgo en 2026

Residencia de datos, BAAs y sectores regulados

Números que debes recordar

Use It

Ship It

Ejercicios

Términos Clave

Lectura Adicional