Phase 17 - Lesson 01

Plataformas de LLM Gerenciadas — Bedrock, Vertex AI, Azure OpenAI

Três provedores de escala de internet (hyperscalers), três estratégias distintas. O AWS Bedrock é um marketplace de modelos — Claude, Llama, Titan, Stability e Cohere sob uma única API. O Azure OpenAI é uma parceria exclusiva com a OpenAI acrescida de Unidades de Capacidade Provisionada (Provisioned Throughput Units - PTUs) para capacidade dedicada. O Vertex AI é Gemini-first com o melhor histórico de contexto longo e multimodal. Em 2026, a Artificial Analysis mede o Azure OpenAI em uma mediana de ~50 ms e o Bedrock em ~75 ms em equivalentes ao Llama 3.1 405B — as PTUs explicam a diferença porque a capacidade dedicada supera o sob demanda compartilhado. A regra de decisão não é "qual é o mais rápido", mas "qual catálogo de modelos e interface de FinOps combinam com meu produto". Esta lição ensina você a escolher com base nos tradeoffs documentados, e não em palpites.

Tipo: Aprenda Linguagens: Python (stdlib, comparador simples de custo e latência) Pré-requisitos: Fase 11 (Engenharia de LLM), Fase 13 (Ferramentas e Protocolos) Tempo: ~60 minutos

Objetivos de Aprendizado

  • Nomear as três estratégias de plataforma (marketplace vs exclusiva vs Gemini-first) e associar cada uma a um caso de uso do produto.
  • Explicar o que as Unidades de Capacidade Provisionada (PTUs) oferecem no Azure OpenAI e por que o Bedrock sob demanda costuma rodar ~25 ms mais lento na escala de modelos 405B.
  • Diagramar a interface de atribuição de FinOps para cada plataforma (Application Inference Profiles do Bedrock vs projeto GCP por equipe no Vertex vs escopos do Azure + reservas de PTU).
  • Escrever uma política de "mínimo de dois provedores" e explicar por que a dependência de um único fornecedor (lock-in) é um erro caro em 2026.

O Problema

Você escolheu o Claude 3.7 Sonnet para o seu produto. Agora precisa servi-lo. Você pode chamar a API da Anthropic diretamente, ou através do AWS Bedrock, ou usar um gateway. A API direta é a mais simples; o Bedrock adiciona BAAs, VPC endpoints, IAM e atribuição via CloudWatch. O gateway adiciona failover, faturamento unificado e limites de requisições por segundo entre provedores.

A questão mais profunda reside no catálogo. Se você precisar do Claude, Llama e Gemini no mesmo produto, não conseguirá contratá-los todos em um só lugar, a menos que utilize Bedrock mais Vertex mais Azure OpenAI simultaneamente. Os provedores não são intercambiáveis — cada um fez uma aposta diferente sobre quem domina a camada de modelos.

Esta lição mapeia as três apostas, a diferença de latência, o FinOps e o risco de lock-in de fornecedor.

O Conceito

Três estratégias

AWS Bedrock — o marketplace. Claude (Anthropic), Llama (Meta), Titan (AWS nativo), Stability (imagem), Cohere (embeddings), Mistral, além de catálogos secundários de imagem e embeddings. Uma única API, um painel de IAM e exportação única para o CloudWatch. A aposta do Bedrock é de que os clientes querem opcionalidade mais do que desejam um único modelo de ponta.

Azure OpenAI — a parceria exclusiva. Você obtém acesso a GPT-4 / 4o / 5 / modelos da série o, DALL·E, Whisper e ajuste fino (fine-tuning) de modelos da OpenAI nos datacenters da Azure. Não há modelos que não sejam da OpenAI no catálogo "Azure OpenAI Service" — estes são alocados no Azure AI Foundry (um produto separado). A aposta da Azure é de que a OpenAI continuará na fronteira do mercado e que os clientes querem controles corporativos nessa relação específica.

Vertex AI — Gemini em primeiro lugar, todo o resto em segundo. Gemini 1.5 / 2.0 / 2.5 Flash e Pro, além do Model Garden (modelos de terceiros). A aposta do Vertex reside no contexto longo e multimodal — a janela de contexto de 1 milhão de tokens do Gemini é o grande diferencial.

Diferença de latência em escala

A Artificial Analysis executa benchmarks contínuos. Em implantações equivalentes do Llama 3.1 405B (sob demanda compartilhado), a latência mediana para o primeiro token (TTFT) no Azure OpenAI é de cerca de 50 ms; no Bedrock, é de cerca de 75 ms. Essa diferença não é uma falha da AWS — é uma diferença no modelo de alocação de capacidade. A Azure comercializa PTUs (Provisioned Throughput Units), que reservam capacidade dedicada de GPU para o seu ambiente (tenant). O equivalente do Bedrock (Provisioned Throughput) existe, mas começa em cerca de

1/hora por unidade, e a maioria dos clientes permanece no sob demanda compartilhado.

A capacidade sob demanda compartilhada compete com o tráfego de todos os outros clientes. A capacidade dedicada não sofre essa concorrência. Se o SLA de TTFT do seu produto for < 100 ms no percentil P99, você deve contratar PTUs na Azure, comprar a capacidade provisionada (Provisioned Throughput) no Bedrock ou aceitar a variação padrão.

Economia do Throughput Provisionado

Azure PTUs: um bloco reservado de computação de inferência. Redução de custos de até ~70% em relação ao sob demanda para cargas de trabalho previsíveis. Custos fixos por hora, independentemente do volume de tráfego — você paga pela reserva mesmo que ela esteja ociosa. O ponto de equilíbrio (break-even) geralmente ocorre em torno de 40-60% de utilização sustentada.

Provisioned Throughput do Bedrock: custa entre 1 e $50 por hora, dependendo do modelo e da região. A lógica matemática é semelhante — o ponto de equilíbrio ocorre em cerca de metade da utilização de pico. Requer compromisso mensal.

A capacidade provisionada do Vertex é vendida por SKU do Gemini; o preço varia de acordo com o modelo e a região e é menos divulgado publicamente.

Interface de FinOps — o verdadeiro diferencial

Os Application Inference Profiles do Bedrock oferecem a atribuição de custos mais organizada do mercado. Identifique um perfil com tags como team, product, feature; roteie todas as invocações de modelo por ele; o CloudWatch detalhará os custos por perfil sem a necessidade de pós-processamento de dados. Adicionado em 2025, continua sendo a opção nativa mais granular entre os hyperscalers.

A atribuição do Vertex baseia-se na estrutura de projeto GCP por equipe, combinada com etiquetas (labels) em todos os recursos. Você modela cada equipe como um projeto GCP, etiqueta cada recurso e utiliza a exportação do faturamento para o BigQuery + Looker DataStudio para visualizações consolidadas. Exige mais esforço de configuração, mas o BigQuery permite consultas SQL livres sobre os dados de custos.

A Azure apoia-se em escopos de assinatura/grupos de recursos associados a tags, tratando as reservas de PTU como objetos de custo de primeira classe. As tags são herdadas dos grupos de recursos, não das requisições, portanto a atribuição por requisição exige o uso de métricas personalizadas do Application Insights ou de um gateway que carimbe os cabeçalhos.

O padrão observado: Bedrock é a melhor solução nativa, Vertex é o mais flexível via BigQuery e Azure é o mais opaco, a menos que você configure instrumentação específica.

Lock-in de fornecedor é o grande risco em 2026

Compromissos exclusivos com um único hyperscaler faziam sentido quando um único modelo dominava. Em 2026, a fronteira tecnológica muda mensalmente — Claude 3.7 em um trimestre, Gemini 2.5 no seguinte e GPT-5 no posterior. Trancar-se em uma plataforma significa isolar-se de dois terços do estado da arte.

O padrão que as equipes de alto desempenho adotam: mínimo de dois provedores para qualquer chamada crítica de LLM no produto. Bedrock mais Azure OpenAI é o par comum — Claude de um lado, GPT do outro, failover automático entre eles usando o mesmo gateway. O aumento de custos é insignificante porque o gateway faz o roteamento ideal; o ganho de disponibilidade durante interrupções (como o incidente da Azure OpenAI em janeiro de 2025 ou a falha da AWS em us-east-1) é decisivo.

Residência de dados, BAAs e setores regulados

Bedrock: oferece acordos BAA na maioria das regiões, VPC endpoints e guardrails integrados. Padrão comum para o setor de fintechs. Azure OpenAI: conformidade com HIPAA, SOC 2, ISO 27001, residência de dados na União Europeia; padrão para grandes corporações reguladas. Vertex: conformidade com HIPAA, GDPR, residência de dados por região física; apoia-se na robusta stack de conformidade do Google Cloud.

Todos os três atendem aos requisitos regulatórios básicos de conformidade. As diferenças residem nas políticas de retenção de dados, como os logs de chamadas são manipulados e se os sistemas de monitoramento de abuso (abuse-monitoring) escaneiam seu tráfego (ativado por padrão na maioria; opção de desativação sob solicitação para planos corporativos).

Números que você deve lembrar

Use It

O arquivo code/main.py compara as três plataformas sob uma carga de trabalho sintética — ele modela a economia do sob demanda vs PTU, variação de TTFT e fidelidade de atribuição de FinOps. Execute-o para visualizar onde as PTUs se pagam e onde a variedade de modelos do Bedrock compensa a diferença de TTFT.

Ship It

Esta lição produz o arquivo outputs/skill-managed-platform-picker.md. A partir de um perfil de carga de trabalho (modelos necessários, SLA de TTFT, volume diário, requisitos de conformidade), ele recomenda uma plataforma principal, uma alternativa de fallback e um plano de instrumentação de FinOps.

Exercícios

  1. Execute code/main.py. Com qual percentual de utilização sustentada a PTU da Azure supera o sob demanda para um modelo da classe 70B? Calcule o ponto de equilíbrio e compare com a faixa de 40-60% divulgada.
  2. Seu produto precisa do Claude 3.7 Sonnet e do GPT-4o. Desenhe uma implantação com dois provedores — qual modelo vai para qual hyperscaler, qual gateway gerencia a frente e qual é a política de failover?
  3. Um cliente regulado do setor de saúde exige BAAs, residência de dados nos EUA (US-East) e TTFT P99 abaixo de 100 ms. Escolha uma plataforma e justifique a decisão com três recursos específicos.
  4. Você descobre que a fatura do Bedrock deste mês subiu 4x sem nenhuma alteração no tráfego de dados. Sem o uso de Application Inference Profiles, como você identificaria a origem dos custos? Com perfis ativos, quanto tempo leva?
  5. Acesse as páginas de preços da Azure OpenAI e do Bedrock. Para uma carga de trabalho de 100 milhões de tokens/mês de Claude, qual opção apresenta o menor custo — a API direta da Anthropic, o Bedrock sob demanda ou o Bedrock Provisioned Throughput?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
Bedrock "Serviço de LLM da AWS" Marketplace de modelos abrangendo Claude, Llama, Titan, Mistral e Cohere
Azure OpenAI "ChatGPT da Azure" Modelos exclusivos da OpenAI nos datacenters da Azure com controles corporativos
Vertex AI "LLM do Google" Plataforma focada no Gemini com o Model Garden para acesso a modelos de terceiros
PTU "Capacidade dedicada" Provisioned Throughput Unit — reserva dedicada de GPUs para inferência, tarifada por hora
Application Inference Profile "Etiquetagem do Bedrock" Perfil de custos e uso por produto utilizando tags, integrado nativamente ao CloudWatch
Model Garden "Catálogo do Vertex" Seção de modelos de terceiros do Vertex AI, separada dos modelos Gemini nativos
Mínimo de dois provedores "Redundância de LLM" Política de executar todas as rotas críticas de LLM em pelo menos dois hyperscalers
BAA "Documentação para HIPAA" Business Associate Agreement; contrato exigido para informações de saúde protegidas (PHI)
Abuse monitoring "Monitor de logs" Escaneamento de segurança do provedor nos prompts e saídas; desativação disponível para planos corporativos

Leitura Adicional