Phase 17 - Lesson 01

Plataformas de LLM Gerenciadas — Bedrock, Vertex AI, Azure OpenAI

Três provedores de escala de internet (hyperscalers), três estratégias distintas. O AWS Bedrock é um marketplace de modelos — Claude, Llama, Titan, Stability e Cohere sob uma única API. O Azure OpenAI é uma parceria exclusiva com a OpenAI acrescida de Unidades de Capacidade Provisionada (Provisioned Throughput Units - PTUs) para capacidade dedicada. O Vertex AI é Gemini-first com o melhor histórico de contexto longo e multimodal. Em 2026, a Artificial Analysis mede o Azure OpenAI em uma mediana de ~50 ms e o Bedrock em ~75 ms em equivalentes ao Llama 3.1 405B — as PTUs explicam a diferença porque a capacidade dedicada supera o sob demanda compartilhado. A regra de decisão não é "qual é o mais rápido", mas "qual catálogo de modelos e interface de FinOps combinam com meu produto". Esta lição ensina você a escolher com base nos tradeoffs documentados, e não em palpites.

Tipo: Aprenda Linguagens: Python (stdlib, comparador simples de custo e latência) Pré-requisitos: Fase 11 (Engenharia de LLM), Fase 13 (Ferramentas e Protocolos) Tempo: ~60 minutos

Objetivos de Aprendizado

Nomear as três estratégias de plataforma (marketplace vs exclusiva vs Gemini-first) e associar cada uma a um caso de uso do produto.
Explicar o que as Unidades de Capacidade Provisionada (PTUs) oferecem no Azure OpenAI e por que o Bedrock sob demanda costuma rodar ~25 ms mais lento na escala de modelos 405B.
Diagramar a interface de atribuição de FinOps para cada plataforma (Application Inference Profiles do Bedrock vs projeto GCP por equipe no Vertex vs escopos do Azure + reservas de PTU).
Escrever uma política de "mínimo de dois provedores" e explicar por que a dependência de um único fornecedor (lock-in) é um erro caro em 2026.

O Problema

Você escolheu o Claude 3.7 Sonnet para o seu produto. Agora precisa servi-lo. Você pode chamar a API da Anthropic diretamente, ou através do AWS Bedrock, ou usar um gateway. A API direta é a mais simples; o Bedrock adiciona BAAs, VPC endpoints, IAM e atribuição via CloudWatch. O gateway adiciona failover, faturamento unificado e limites de requisições por segundo entre provedores.

A questão mais profunda reside no catálogo. Se você precisar do Claude, Llama e Gemini no mesmo produto, não conseguirá contratá-los todos em um só lugar, a menos que utilize Bedrock mais Vertex mais Azure OpenAI simultaneamente. Os provedores não são intercambiáveis — cada um fez uma aposta diferente sobre quem domina a camada de modelos.

Esta lição mapeia as três apostas, a diferença de latência, o FinOps e o risco de lock-in de fornecedor.

O Conceito

Três estratégias

AWS Bedrock — o marketplace. Claude (Anthropic), Llama (Meta), Titan (AWS nativo), Stability (imagem), Cohere (embeddings), Mistral, além de catálogos secundários de imagem e embeddings. Uma única API, um painel de IAM e exportação única para o CloudWatch. A aposta do Bedrock é de que os clientes querem opcionalidade mais do que desejam um único modelo de ponta.

Azure OpenAI — a parceria exclusiva. Você obtém acesso a GPT-4 / 4o / 5 / modelos da série o, DALL·E, Whisper e ajuste fino (fine-tuning) de modelos da OpenAI nos datacenters da Azure. Não há modelos que não sejam da OpenAI no catálogo "Azure OpenAI Service" — estes são alocados no Azure AI Foundry (um produto separado). A aposta da Azure é de que a OpenAI continuará na fronteira do mercado e que os clientes querem controles corporativos nessa relação específica.

Vertex AI — Gemini em primeiro lugar, todo o resto em segundo. Gemini 1.5 / 2.0 / 2.5 Flash e Pro, além do Model Garden (modelos de terceiros). A aposta do Vertex reside no contexto longo e multimodal — a janela de contexto de 1 milhão de tokens do Gemini é o grande diferencial.

Diferença de latência em escala

A Artificial Analysis executa benchmarks contínuos. Em implantações equivalentes do Llama 3.1 405B (sob demanda compartilhado), a latência mediana para o primeiro token (TTFT) no Azure OpenAI é de cerca de 50 ms; no Bedrock, é de cerca de 75 ms. Essa diferença não é uma falha da AWS — é uma diferença no modelo de alocação de capacidade. A Azure comercializa PTUs (Provisioned Throughput Units), que reservam capacidade dedicada de GPU para o seu ambiente (tenant). O equivalente do Bedrock (Provisioned Throughput) existe, mas começa em cerca de

Use It

O arquivo code/main.py compara as três plataformas sob uma carga de trabalho sintética — ele modela a economia do sob demanda vs PTU, variação de TTFT e fidelidade de atribuição de FinOps. Execute-o para visualizar onde as PTUs se pagam e onde a variedade de modelos do Bedrock compensa a diferença de TTFT.

Ship It

Esta lição produz o arquivo outputs/skill-managed-platform-picker.md. A partir de um perfil de carga de trabalho (modelos necessários, SLA de TTFT, volume diário, requisitos de conformidade), ele recomenda uma plataforma principal, uma alternativa de fallback e um plano de instrumentação de FinOps.

Exercícios

Execute code/main.py. Com qual percentual de utilização sustentada a PTU da Azure supera o sob demanda para um modelo da classe 70B? Calcule o ponto de equilíbrio e compare com a faixa de 40-60% divulgada.

Seu produto precisa do Claude 3.7 Sonnet e do GPT-4o. Desenhe uma implantação com dois provedores — qual modelo vai para qual hyperscaler, qual gateway gerencia a frente e qual é a política de failover?

Um cliente regulado do setor de saúde exige BAAs, residência de dados nos EUA (US-East) e TTFT P99 abaixo de 100 ms. Escolha uma plataforma e justifique a decisão com três recursos específicos.

Você descobre que a fatura do Bedrock deste mês subiu 4x sem nenhuma alteração no tráfego de dados. Sem o uso de Application Inference Profiles, como você identificaria a origem dos custos? Com perfis ativos, quanto tempo leva?

Acesse as páginas de preços da Azure OpenAI e do Bedrock. Para uma carga de trabalho de 100 milhões de tokens/mês de Claude, qual opção apresenta o menor custo — a API direta da Anthropic, o Bedrock sob demanda ou o Bedrock Provisioned Throughput?

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Bedrock	"Serviço de LLM da AWS"	Marketplace de modelos abrangendo Claude, Llama, Titan, Mistral e Cohere
Azure OpenAI	"ChatGPT da Azure"	Modelos exclusivos da OpenAI nos datacenters da Azure com controles corporativos
Vertex AI	"LLM do Google"	Plataforma focada no Gemini com o Model Garden para acesso a modelos de terceiros
PTU	"Capacidade dedicada"	Provisioned Throughput Unit — reserva dedicada de GPUs para inferência, tarifada por hora
Application Inference Profile	"Etiquetagem do Bedrock"	Perfil de custos e uso por produto utilizando tags, integrado nativamente ao CloudWatch
Model Garden	"Catálogo do Vertex"	Seção de modelos de terceiros do Vertex AI, separada dos modelos Gemini nativos
Mínimo de dois provedores	"Redundância de LLM"	Política de executar todas as rotas críticas de LLM em pelo menos dois hyperscalers
BAA	"Documentação para HIPAA"	Business Associate Agreement; contrato exigido para informações de saúde protegidas (PHI)
Abuse monitoring	"Monitor de logs"	Escaneamento de segurança do provedor nos prompts e saídas; desativação disponível para planos corporativos

Termo

O que as pessoas dizem

O que realmente significa

Bedrock

"Serviço de LLM da AWS"

Marketplace de modelos abrangendo Claude, Llama, Titan, Mistral e Cohere

Azure OpenAI

"ChatGPT da Azure"

Modelos exclusivos da OpenAI nos datacenters da Azure com controles corporativos

Vertex AI

"LLM do Google"

Plataforma focada no Gemini com o Model Garden para acesso a modelos de terceiros

PTU

"Capacidade dedicada"

Provisioned Throughput Unit — reserva dedicada de GPUs para inferência, tarifada por hora

Application Inference Profile

"Etiquetagem do Bedrock"

Perfil de custos e uso por produto utilizando tags, integrado nativamente ao CloudWatch

Model Garden

"Catálogo do Vertex"

Seção de modelos de terceiros do Vertex AI, separada dos modelos Gemini nativos

Mínimo de dois provedores

"Redundância de LLM"

Política de executar todas as rotas críticas de LLM em pelo menos dois hyperscalers

BAA

"Documentação para HIPAA"

Business Associate Agreement; contrato exigido para informações de saúde protegidas (PHI)

Abuse monitoring

"Monitor de logs"

Escaneamento de segurança do provedor nos prompts e saídas; desativação disponível para planos corporativos

Leitura Adicional

AWS Bedrock Pricing — tabela de preços oficial e valores de Provisioned Throughput.

Azure OpenAI Service Pricing — economia das PTUs e tabelas tarifárias.

Vertex AI Generative AI Pricing — faixas tarifárias do Gemini e custos adicionais do Model Garden.

Artificial Analysis LLM Leaderboard — benchmarks contínuos de latência e vazão entre diferentes provedores.

The AI Journal — AWS Bedrock vs Azure OpenAI CTO Guide 2026 — framework de decisão para empresas.

Finout — Bedrock vs Vertex vs Azure FinOps — comparação lado a lado dos mecanismos de atribuição de custos.

Plataformas de LLM Gerenciadas — Bedrock, Vertex AI, Azure OpenAI

Objetivos de Aprendizado

O Problema

O Conceito

Três estratégias

Diferença de latência em escala

Economia do Throughput Provisionado

Interface de FinOps — o verdadeiro diferencial

Lock-in de fornecedor é o grande risco em 2026

Residência de dados, BAAs e setores regulados

Números que você deve lembrar

Use It

Ship It

Exercícios

Termos-Chave

Leitura Adicional