Phase 11 - Lesson 13

Construindo uma Aplicação de LLM em Produção

Você construiu prompts, embeddings, pipelines de RAG, chamadas de função (function calling), camadas de cache e guardrails. Separadamente. De forma isolada. Como praticar escalas de guitarra sem nunca tocar uma música. Esta lição é a música. Você conectará cada componente das Lições 01 a 12 em um único serviço pronto para produção. Não um brinquedo. Não uma demonstração. Um sistema que lida com tráfego real, falha graciosamente, transmite (streams) tokens, rastreia custos e sobrevive aos seus primeiros 10.000 usuários.

Tipo: Construção (Capstone) Idiomas: Python Pré-requisitos: Fase 11 Lições 01-15 Tempo: ~120 minutos Relacionado: Fase 11 · 14 (MCP) para substituir esquemas de ferramentas sob medida por um protocolo compartilhado; Fase 11 · 15 (Cache de Prompt) para redução de custo de 50-90% em prefixos estáveis. Ambos são esperados em toda pilha séria de produção em 2026.

Objetivos de Aprendizado

Conectar todos os componentes da Fase 11 (prompts, RAG, chamadas de função, cache, guardrails) em um único serviço pronto para produção
Implementar entrega de tokens por streaming, tratamento de erros gracioso e gerenciamento de tempo limite (timeout) de requisições
Construir observabilidade na aplicação: logs de requisições, rastreamento de custos, percentis de latência e painéis de taxa de erro
Implantar a aplicação com verificações de integridade (health checks), limitação de taxa (rate limiting) e uma estratégia de contingência (fallback) para interrupções do provedor

O Problema

Construir uma funcionalidade de LLM leva uma tarde. Enviar um produto de LLM para produção leva meses.

A lacuna não é inteligência. É infraestrutura. Seu protótipo chama a OpenAI, obtém uma resposta, exibe-a. Funciona no seu laptop. Então a realidade chega:

Um usuário envia um documento de 50.000 tokens. Sua janela de contexto transborda.
Dois usuários fazem a mesma pergunta com 4 segundos de diferença. Você paga por ambos.
A API retorna um erro 500 às 2h da manhã. Seu serviço cai.
Um usuário pede ao modelo para gerar SQL. O modelo retorna DROP TABLE users.
Sua fatura mensal chega a
2.000 e você não tem ideia de qual funcionalidade causou isso.
O tempo médio de resposta é de 8 segundos. Os usuários saem após 3 segundos.

Toda aplicação de LLM em produção hoje -- Perplexity, Cursor, ChatGPT, Notion AI -- resolveu esses problemas. Não sendo mais esperta em relação aos prompts. Mas sendo rigorosa com a engenharia.

Este é o capstone. Você construirá um serviço de LLM completo em produção que integra gerenciamento de prompts (L01-02), embeddings e busca vetorial (L04-07), chamadas de função (L09), avaliação (L10), cache (L11), guardrails (L12), streaming, tratamento de erros, observabilidade e rastreamento de custos. Um serviço. Todos os componentes conectados.

O Conceito

Arquitetura de Produção

Toda aplicação de LLM séria segue o mesmo fluxo. O detalhes variam. A estrutura não.

graph LR
    Client["Cliente<br/>(Web, Mobile, API)"]
    GW["API Gateway<br/>Autenticação + Limite de Taxa"]
    PR["Roteador de Prompt<br/>Seleção de Template"]
    Cache["Cache Semântico<br/>Busca de Embedding"]
    LLM["Chamada de LLM<br/>Streaming"]
    Guard["Guardrails<br/>Entrada + Saída"]
    Eval["Registrador de Eval<br/>Rastreamento de Qualidade"]
    Cost["Rastreador de Custo<br/>Contabilidade de Tokens"]
    Resp["Resposta<br/>Stream SSE"]

    Client --> GW --> Guard
    Guard -->|Verificação de Entrada| PR
    PR --> Cache
    Cache -->|Hit| Resp
    Cache -->|Miss| LLM
    LLM --> Guard
    Guard -->|Verificação de Saída| Eval
    Eval --> Cost --> Resp

A requisição entra por um gateway de API que lida com autenticação e limitação de taxa. Os guardrails de entrada verificam injeção de prompt e conteúdo proibido antes que o roteador de prompt selecione o template correto. Um cache semântico verifica se uma pergunta semelhante foi respondida recentemente. Em caso de cache miss, a LLM é chamada com o streaming ativado. Os guardrails de saída validam a resposta. O registrador de eval registra métricas de qualidade. O rastreador de custos contabiliza cada token. A resposta é transmitida de volta para o cliente.

Sete componentes. Cada um é uma lição que você já concluiu. A engenharia está na conexão entre eles.

A Pilha

Componente	Lição	Tecnologia	Objetivo
Servidor de API	--	FastAPI + Uvicorn	Endpoints HTTP, streaming SSE, verificações de integridade
Templates de Prompt	L01-02	Jinja2 / templates de string	Gerenciamento de prompt versionado com injeção de variáveis
Embeddings	L04	text-embedding-3-small	Similaridade semântica para cache e RAG
Armazenamento de Vetores	L06-07	Em memória (prod: Pinecone/Qdrant)	Busca de vizinhos mais próximos para recuperação de contexto
Chamadas de Função	L09	Registro de ferramentas + JSON Schema	Acesso a dados externos, ações estruturadas
Avaliação	L10	Métricas personalizadas + logs	Rastreamento de qualidade de resposta, latência e acurácia
Cache	L11	Cache semântico (baseado em embedding)	Evitar chamadas redundantes de LLM, reduzir custo e latência
Guardrails	L12	Regex + regras de classificador	Bloquear injeção de prompt, PII, conteúdo inseguro
Rastreador de Custos	L11	Contador de tokens + tabela de preços	Contabilidade de custo por requisição e agregado
Streaming	--	Server-Sent Events (SSE)	Entrega token por token, primeiro token em menos de um segundo

Streaming: Por Que Importa

Uma resposta do GPT-5 com 500 tokens de saída leva de 3 a 8 segundos para ser totalmente gerada. Sem streaming, o usuário fica olhando para um indicador de carregamento durante todo o tempo. Com streaming, o primeiro token chega em 200-500ms. O tempo total é o mesmo. A latência percebida diminui em 90%.

sequenceDiagram
    participant C as Cliente
    participant S as Servidor
    participant L as API de LLM

    C->>S: POST /chat (stream=true)
    S->>L: API call (stream=true)
    L-->>S: token: "The"
    S-->>C: SSE: data: {"token": "The"}
    L-->>S: token: " capital"
    S-->>C: SSE: data: {"token": " capital"}
    L-->>S: token: " of"
    S-->>C: SSE: data: {"token": " of"}
    Note over L,S: ...continua token por token...
    L-->>S: [DONE]
    S-->>C: SSE: data: [DONE]

Três protocolos para streaming:

Protocolo	Latência	Complexidade	Quando Usar
Server-Sent Events (SSE)	Baixa	Baixa	A maioria das apps de LLM. Unidirecional, baseado em HTTP, funciona em qualquer lugar
WebSockets	Baixa	Média	Necessidades bidirecionais: voz, colaboração em tempo real
Long Polling	Alta	Baixa	Clientes legados que não conseguem lidar com SSE ou WebSockets

O SSE é a escolha padrão. OpenAI, Anthropic e Google transmitem via SSE. Seu servidor recebe fragmentos (chunks) da API da LLM e os encaminha ao cliente como eventos SSE. O cliente usa EventSource (navegador) ou httpx (Python) para consumir o stream.

Tratamento de Erros: As Três Camadas

As aplicações de LLM em produção falham de três maneiras distintas. Cada uma requer uma estratégia de recuperação diferente.

Camada 1: Falhas de API. O provedor de LLM retorna 429 (limite de taxa excedido), 500 (erro interno do servidor) ou esgota o tempo limite (timeout). Solução: recuo exponencial (exponential backoff) com tremulação (jitter). Comece em 1 segundo, dobre a cada tentativa, adicione uma tremulação aleatória para evitar o efeito de manada (thundering herd). Máximo de 3 tentativas.

Attempt 1: immediate
Attempt 2: 1s + random(0, 0.5s)
Attempt 3: 2s + random(0, 1.0s)
Attempt 4: 4s + random(0, 2.0s)
Give up: return fallback response

Camada 2: Falhas do modelo. O modelo retorna um JSON malformado, alucina um nome de função ou produz uma saída que falha na validação. Solução: tentar novamente com um prompt corrigido. Inclua o erro na mensagem de nova tentativa para que o modelo possa se autocorrigir.

Camada 3: Falhas da aplicação. Um serviço downstream está inacessível, o armazenamento de vetores está lento, um guardrail lança uma exceção. Solução: degradação graciosa. Se o contexto do RAG não estiver disponível, prossiga sem ele. Se o cache estiver inativo, ignore-o. Nunca deixe que um sistema secundário derrube o fluxo principal.

Falha	Tentar novamente?	Fallback	Impacto para o Usuário
API 429 (limite de taxa)	Sim, com backoff	Colocar a requisição na fila	"Processando, por favor aguarde..."
API 500 (erro do servidor)	Sim, 3 tentativas	Mudar para modelo de contingência	Transparente para o usuário
Timeout de API (>30s)	Sim, 1 tentativa	Prompt mais curto, modelo menor	Qualidade ligeiramente menor
Saída malformada	Sim, com contexto do erro	Retornar texto bruto	Pequenos problemas de formatação
Bloqueio por guardrail	Não	Explicar por que a requisição foi bloqueada	Mensagem de erro clara
Banco de vetores inativo	Sem nova tentativa no banco	Ignorar contexto de RAG	Qualidade menor, porém funcional
Cache inativo	Sem nova tentativa no cache	Chamada direta à LLM	Maior latência, custo mais alto

Cadeia de modelos de contingência (fallback). Quando seu modelo principal estiver indisponível, siga a cadeia:

claude-sonnet-4-20250514 -> gpt-4o -> gpt-4o-mini -> cached response -> "Service temporarily unavailable"

Cada etapa troca qualidade por disponibilidade. O usuário sempre recebe alguma resposta.

Observabilidade: O Que Medir

Você não pode melhorar o que não pode ver. Toda aplicação de LLM em produção precisa de três pilares de observabilidade.

Logs estruturados. Cada requisição gera uma entrada de log em JSON com: ID da requisição, ID do usuário, nome do template de prompt, modelo utilizado, tokens de entrada, tokens de saída, latência (ms), hit/miss do cache, aprovação/falha do guardrail, custo (USD) e quaisquer erros.

Rastreamento (Tracing). Uma única requisição de usuário toca de 5 a 8 componentes. Rastreamentos do OpenTelemetry permitem que você veja a jornada completa: quanto tempo levou o embedding? Foi um acerto de cache (cache hit)? Quanto tempo durou a chamada à LLM? O guardrail adicionou latência? Sem tracing, depurar problemas em produção é pura adivinhação.

Painel de métricas. Os cinco números que toda equipe de LLM acompanha:

Métrica	Meta	Por quê
Latência P50	< 2s	Experiência média do usuário
Latência P99	< 10s	Latência de cauda causa cancelamento de usuários (churn)
Taxa de acerto do cache (hit rate)	> 30%	Economia direta de custos
Taxa de bloqueio de guardrail	< 5%	Muito alta = falsos positivos irritando os usuários
Custo por requisição	< $0.01	Viabilidade econômica unitária

Testes A/B de Prompts em Produção

Seu prompt não está finalizado quando funciona. Ele está finalizado quando você tem dados que provam que ele supera a alternativa.

Modo sombra (Shadow mode). Execute um novo prompt em 100% do tráfego, mas apenas registre os resultados -- não os mostre aos usuários. Compare as métricas de qualidade com o prompt atual. Sem risco para o usuário, dados completos.

Implantação percentual (Percentage rollout). Direcione 10% do tráfego para o novo prompt. Monitore as métricas. Se a qualidade se mantiver, aumente para 25%, depois 50%, depois 100%. Se a qualidade cair, reverta instantaneamente.

graph TD
    R["Requisição de Entrada"]
    H["Hash(user_id) mod 100"]
    A["Prompt v1 (90%)"]
    B["Prompt v2 (10%)"]
    L["Registrar Ambos os Resultados"]
    
    R --> H
    H -->|0-89| A
    H -->|90-99| B
    A --> L
    B --> L

Use um hash determinístico do ID do usuário, não uma seleção aleatória. Isso garante que cada usuário tenha uma experiência consistente entre as requisições dentro do mesmo experimento.

Exemplos Reais de Arquitetura

Perplexity. A consulta do usuário entra. Um mecanismo de busca recupera de 10 a 20 páginas da web. As páginas são divididas em blocos (chunks), convertidas em embeddings e reordenadas (reranked). Os 5 principais blocos tornam-se o contexto do RAG. A LLM gera uma resposta com citações, transmitida por streaming em tempo real. Dois modelos: um rápido para reformulação da consulta de busca, um robusto para síntese da resposta. Estimativa de mais de 50 milhões de consultas/dia.

Cursor. O arquivo aberto, os arquivos ao redor, edições recentes e a saída do terminal formam o contexto. Um roteador de prompt decide: modelo menor para preenchimento automático (Cursor-small, ~20ms), modelo maior para chat (Claude Sonnet 4.6 / GPT-5, ~3s). O contexto é compactado agressivamente -- apenas seções de código relevantes, não arquivos inteiros. Embeddings da base de código fornecem contexto de longo alcance. Edições especulativas transmitem diffs, não arquivos completos. A integração com MCP permite que ferramentas de terceiros sejam conectadas sem alterações de código por ferramenta.

ChatGPT. Plugins, chamadas de função e servidores MCP permitem que o modelo acesse a web, execute código, gere imagens e consulte bancos de dados. Uma camada de roteamento decide quais recursos invocar. A memória persiste as preferências do usuário entre as sessões. O prompt do sistema tem mais de 1.500 tokens de regras de comportamento, armazenados em cache por meio de cache de prompt. Múltiplos modelos servem diferentes recursos: GPT-5 para chat, GPT-Image para imagens, Whisper para voz, o4-mini para raciocínio profundo.

Escalabilidade

Escala	Arquitetura	Infraestrutura
0-1K DAU	Servidor FastAPI único, chamadas síncronas	1 VM, $50/mês
1K-10K DAU	FastAPI assíncrono, cache semântico, fila	2-4 VMs + Redis, $500/mês
10K-100K DAU	Escalonamento horizontal, balanceador de carga, workers assíncronos	Kubernetes, $5K/mês
100K+ DAU	Multirregião, roteamento de modelos, inferência dedicada	Infraestrutura personalizada, $50K+/mês

Principais padrões de escalonamento:

Assíncrono em todos os lugares. Nunca bloqueie uma thread de servidor web em uma chamada de LLM. Use asyncio e httpx.AsyncClient.
Processamento baseado em fila. Para tarefas que não são em tempo real (resumo, análise), envie para uma fila (Redis, SQS) e processe com workers. Retorne um ID de trabalho (job ID), permitindo que o cliente faça consultas periódicas (polling).
Pool de conexões (Connection pooling). Reutilize conexões HTTP para provedores de LLM. Criar uma nova conexão TLS por requisição adiciona de 100 a 200ms.
Escalonamento horizontal. Aplicações de LLM são limitadas por E/S (I/O bound), não por CPU. Um único servidor assíncrono lida com mais de 100 requisições simultâneas. Escale servidores, não núcleos.

Projeção de Custos

Antes de enviar para produção, estime seu custo mensal. Esta planilha decide se o seu modelo de negócios funciona.

Variável	Valor	Origem
Usuários Ativos Diários (DAU)	10.000	Analytics
Consultas por usuário por dia	5	Analytics de produto
Média de tokens de entrada por consulta	1.500	Medido (sistema + contexto + usuário)
Média de tokens de saída por consulta	400	Medido
Preço de entrada por 1M de tokens	$5.00	Preços do GPT-5 da OpenAI
Preço de saída por 1M de tokens	5.00	Preços do GPT-5 da OpenAI
Taxa de acerto do cache (hit rate)	35%	Medida a partir das métricas de cache
Consultas diárias efetivas	32.500	50.000 * (1 - 0.35)

Custo mensal de LLM:

Entrada: 32.500 consultas/dia x 1.500 tokens x 30 dias / 1M x

#	Item	Categoria
1	Chaves de API armazenadas em variáveis de ambiente, não no código	Segurança
2	Limitação de taxa por usuário (padrão de 10-50 req/min)	Proteção
3	Guardrails de entrada ativos (injeção de prompt, PII)	Segurança
4	Guardrails de saída ativos (filtragem de conteúdo, validação de formato)	Segurança
5	Cache semântico configurado e testado	Custo
6	Streaming ativado para todos os endpoints de chat	Experiência do Usuário (UX)
7	Recuo exponencial em todas as chamadas de API de LLM	Confiabilidade
8	Cadeia de modelos de contingência (fallback) configurada	Confiabilidade
9	Logs estruturados com IDs de requisição	Observabilidade
10	Rastreamento de custo por requisição e por usuário	Negócios
11	Endpoint de verificação de integridade retornando o status das dependências	Operações
12	Limites máximos de tokens na entrada e na saída	Custo/Segurança
13	Tempo limite (timeout) em todas as chamadas externas (padrão de 30s)	Confiabilidade
14	CORS configurado apenas para domínios de produção	Segurança
15	Teste de carga com 100 usuários simultâneos aprovado	Desempenho

Termo	O que dizem	O que realmente significa
API Gateway	"O frontend"	O ponto de entrada que lida com autenticação, limitação de taxa, CORS e roteamento de requisições antes que qualquer lógica de LLM seja executada
Roteador de Prompt	"Seletor de template"	Lógica que escolhe o template de prompt correto com base no tipo de requisição, atribuição de experimento A/B e contexto do usuário
Cache Semântico	"Cache inteligente"	Um cache indexado pela similaridade de embeddings em vez de correspondência exata de strings -- duas perguntas idênticas formuladas de formas diferentes retornam a mesma resposta em cache
SSE (Server-Sent Events)	"Streaming"	Um protocolo HTTP unidirecional no qual o servidor envia eventos para o cliente -- usado pela OpenAI, Anthropic e Google para entrega de conteúdo token a token
Recuo Exponencial (Exponential Backoff)	"Lógica de nova tentativa"	Aguardar 1s, 2s, 4s, 8s entre tentativas (dobrando o tempo a cada tentativa) com uma tremulação aleatória (jitter) para evitar que todos os clientes tentem novamente ao mesmo tempo
Cadeia de Fallback	"Cascata de modelos"	Uma lista ordenada de modelos testados em sequência -- quando o principal falha, recorre-se a alternativas mais baratas ou disponíveis
Degradação Graciosa	"Tratamento de falha parcial"	Quando um componente secundário falha (cache, RAG, guardrails), o sistema continua funcionando com recursos reduzidos em vez de falhar completamente
Custo por Requisição	"Economia unitária"	O gasto total de LLM (tokens de entrada + tokens de saída de acordo com o preço do modelo) para uma única requisição de usuário -- o número que determina se seu modelo de negócios é viável
Modo Sombra (Shadow Mode)	"Lançamento no escuro"	Executar um novo prompt ou modelo com tráfego real, mas apenas registrando os resultados e sem exibi-los aos usuários -- teste A/B livre de riscos
Verificação de Integridade (Health Check)	"Sonda de prontidão"	Um endpoint que retorna o status de todas as dependências (cache, disponibilidade de LLM, guardrails) -- usado por balanceadores de carga e Kubernetes para rotear o tráfego

Construindo uma Aplicação de LLM em Produção

Objetivos de Aprendizado

O Problema

O Conceito

Arquitetura de Produção

A Pilha

Streaming: Por Que Importa

Tratamento de Erros: As Três Camadas

Observabilidade: O Que Medir

Testes A/B de Prompts em Produção

Exemplos Reais de Arquitetura

Escalabilidade

Projeção de Custos

A Lista de Verificação de Implantação

Construa

Passo 1: Infraestrutura Central

Passo 2: Gerenciamento de Prompts

Passo 3: Cache Semântico

Passo 4: Guardrails

Passo 5: Chamador de LLM com Nova Tentativa e Streaming

Passo 6: O Pipeline de Requisição

Passo 7: Executar a Demonstração Completa

Como Usar

Servidor FastAPI (Implantação em Produção)

Integração com API Real

Implantação com Docker

Envie para Produção

Exercícios

Termos-Chave

Leituras Adicionais