Phase 12 - Lesson 07

Receitas de VLM Open-Weight: O Que Realmente Importa

A literatura de VLMs open-weight de 2024-2026 é uma floresta de tabelas de ablação. O MM1 da Apple testou 13 combinações de codificador de imagem, conector e mistura de dados. O Molmo do Allen AI provou que descrições humanas detalhadas superam a destilação do GPT-4V. O Cambrian-1 realizou mais de 20 comparações de codificadores. O Idefics2 formalizou o espaço de design de cinco eixos. O Prismatic VLMs comparou 27 receitas de treinamento em um benchmark controlado. De todo esse ruído, um pequeno conjunto de resultados se mantém em todos os artigos: o codificador de imagem importa mais do que a arquitetura do conector, a mistura de dados importa mais do que ambos, e descrições humanas detalhadas superam dados sintéticos destilados. Esta lição analisa essas tabelas para que você não precise fazer isso.

Tipo: Learn + lab Linguagens: Python (stdlib, analisador de tabela de ablação + seletor de receita) Pré-requisitos: Phase 12 · 05 (LLaVA baseline) Tempo: ~180 minutos

Objetivos de Aprendizagem

Nomear o espaço de design de VLM de cinco eixos: codificador de imagem, conector, LLM, mistura de dados, cronograma de resolução.
Ler uma tabela de ablação do MM1 / Idefics2 / Cambrian-1 e prever qual ajuste altera um determinado benchmark.
Escolher uma receita (codificador, conector, dados, resolução) para um novo VLM dado um orçamento de computação e uma mistura de tarefas.
Explicar por que descrições humanas detalhadas superam a destilação do GPT-4V com a mesma contagem de tokens.

O Problema

Centenas de VLMs open-weight existem. A maior parte da diferença entre "bom" e "estado da arte" não é a arquitetura. São os dados, o cronograma de resolução e a escolha do codificador. Saber qual ajuste fazer primeiro quando seu modelo apresenta desempenho abaixo do esperado economiza um erro de 5 milhões de horas de GPU.

A onda de 2023 (LLaVA-1.5, InstructBLIP, MiniGPT-4) rodou em pré-treinamento com pares de legenda + LLaVA-Instruct-150k. Uma boa linha de base. Atingiu o limite em cerca de 35% no MMMU.

A onda de 2024 (MM1, Idefics2, Molmo, Cambrian-1, Prismatic VLMs) executou ablações exaustivas. Os resultados foram surpreendentes e práticos.

O Conceito

O espaço de design de cinco eixos

O Idefics2 (Laurençon et al., 2024) nomeou os eixos:

Codificador de imagem. CLIP ViT-L/14, SigLIP SO400m/14, DINOv2 ViT-g/14, InternViT-6B. Os codificadores diferem no tamanho do patch, resolução e objetivo de pré-treinamento.
Conector. MLP (2-4 camadas), Q-Former (32 consultas + cross-attn), Perceiver Resampler (64 consultas), C-Abstractor (convolucional + pooling bilinear).
Modelo de linguagem. Llama-3 8B / 70B, Mistral 7B, Phi-3, Gemma-2, Qwen2.5. O tamanho do LLM é o custo de parâmetros dominante.
Dados de treinamento. Pares de legenda (CC3M, LAION), intercalados (OBELICS, MMC4), instrução (LLaVA-Instruct, ShareGPT4V, PixMo, Cauldron).
Cronograma de resolução. Fixo 224/336/448, AnyRes, dinâmico nativo. Rampa durante o treinamento ou constante.

Todo VLM de produção faz uma escolha em cada eixo. A maior parte da variação nas pontuações do MMMU é explicada pelos eixos 1, 4 e 5 — e não por qual conector você escolheu.

Eixo 1: codificador > conector

A Seção 3.2 do MM1 mostrou: a mudança de CLIP ViT-L/14 para SigLIP SO400m/14 adicionou mais de 3 pontos no MMMU. A mudança do conector de MLP para Perceiver Resampler adicionou menos de 1 ponto. O Idefics2 replicou: SigLIP > CLIP, Q-Former ≈ MLP ≈ Perceiver com a mesma contagem de tokens.

O "Cambrian Vision Encoders Match-Up" do Cambrian-1 (Tong et al., 2024) executou mais de 20 codificadores em um benchmark centrado em visão (CV-Bench). O topo da tabela de classificação é uma mistura de DINOv2 e SigLIP; o CLIP está no meio do pelotão; o ImageBind e o ViT-MAE estão mais abaixo. A diferença do CLIP ViT-L para o DINOv2 ViT-g/14 é de ~5-7 pontos no CV-Bench.

O codificador padrão de 2026 para VLMs abertos é o SigLIP 2 SO400m/14 para recursos semânticos + densos, às vezes concatenado com recursos do DINOv2 ViT-g/14 (o "Spatial Vision Aggregator" do Cambrian faz isso).

Eixo 2: o design do conector é irrelevante

MM1, Idefics2, Prismatic e MM-Interleaved chegaram todos à mesma conclusão: para uma contagem fixa de tokens visuais, a arquitetura do conector mal importa. Um MLP de 2 camadas em patches com pooling de média tem desempenho dentro de 1 ponto de diferença de um Q-Former de 32 consultas com o mesmo orçamento de tokens.

O que realmente importa é a contagem de tokens. Mais tokens visuais = mais computação do LLM = melhor desempenho até certo ponto, seguido de retornos decrescentes. 64 tokens por imagem é muito pouco para OCR. 576-1024 tokens é o ponto ideal para a maioria dos VLMs abertos. Mais de 2048 ajuda apenas para documentos e gráficos.

Q-Former vs MLP é uma questão de custo, não de qualidade: o Q-Former limita os tokens em 32-64, independentemente da resolução da imagem; o MLP emite todos os tokens do patch. Para entradas de alta resolução, o Q-Former economiza contexto do LLM; para baixa resolução, a diferença é ruído.

Eixo 3: o tamanho do LLM define o teto

Dobrar o LLM de 7B para 13B adiciona de forma confiável de 2 a 4 pontos no MMMU em todos os artigos de VLM. Com 70B você satura a maioria dos benchmarks. O teto de raciocínio multimodal do VLM é o teto de raciocínio de texto do LLM — o codificador visual pode apenas alimentá-lo, não raciocinar por ele.

É por isso que o Qwen2.5-VL-72B e o Claude Opus 4.7 superam amplamente o MMMU-Pro e o ScreenSpot-Pro: o cérebro de linguagem é enorme. Um VLM de 7B não pode substituir um VLM de 70B por meio de um design inteligente de conector.

Eixo 4: dados — descrições humanas detalhadas superam a destilação

Molmo + PixMo (Deitke et al., 2024) é o resultado de 2024 que todos deveriam ler. O Allen AI fez com que anotadores humanos descrevessem imagens em sessões densas de fala para texto de 1 a 3 minutos, gerando 712 mil imagens densamente descritas. Sem destilação do GPT-4V em nenhuma parte dos dados de treinamento.

O Molmo-72B superou o Llama-3.2-90B-Vision em 11 de 11 benchmarks. A diferença não é a arquitetura — é a qualidade das legendas. As descrições humanas detalhadas contêm de 5 a 10 vezes mais informações por imagem do que legendas curtas da web e permanecem factualmente fundamentadas onde a destilação do GPT-4V alucina.

O ShareGPT4V (Chen et al., 2023) e o Cauldron (Idefics2) seguiram a mesma estratégia com legendas mistas de humanos + GPT-4V. A tendência é clara: para a fronteira de 2026, densidade de legenda > quantidade de legenda > conveniencia de destilação.

Eixo 5: resolução e seu cronograma

Ablações do Idefics2: 384 -> 448 adiciona de 1 a 2 pontos. 448 -> 980 com divisão de imagem (AnyRes) adiciona outros 3 a 5 pontos em benchmarks de OCR. O treinamento com resolução fixa atinge um patamar de precisão média; a rampa de resolução (começando em 224, terminando em 448 ou nativo) treina mais rápido e termina com resultados melhores.

O Cambrian-1 executou uma troca entre resolução e tokens: com computação fixa, você pode ter mais tokens em menor resolução ou menos tokens em maior resolução. A maior resolução ganha para OCR; menor resolução com mais tokens ganha para a compreensão geral de cenas.

A receita de produção para 2026: treinar a Etapa 1 em 384 fixo, Etapa 2 com resolução dinâmica de até 1280 para tarefas pesadas de OCR.

A comparação controlada do Prismatic

O Prismatic VLMs (Karamcheti et al., 2024) é o artigo que controlou todos os eixos. O mesmo LLM de 13B, os mesmos dados de instrução, a mesma avaliação — apenas um eixo varia por vez. Resultados:

A contagem de tokens visuais por imagem explica ~60% da variação.
A escolha do codificador explica ~20%.
A arquitetura do conector explica ~5%.
Todo o resto (mistura de dados, agendador, taxa de aprendizado) os ~15% restantes.

Esta é uma decomposição aproximada, mas é a resposta mais clara na literatura para "o que devo ablatar primeiro".

Um seletor para 2026

Dadas as evidências, a receita padrão de VLM aberto para um novo projeto em 2026:

Codificador: SigLIP 2 SO400m/14 em resolução nativa com NaFlex, concatenado com DINOv2 ViT-g/14 para recursos densos se você precisar de segmentação/localização (grounding).
Conector: MLP de 2 camadas nos tokens de patch. Pule o Q-Former a menos que tenha restrição de tokens.
LLM: Qwen2.5 / Llama-3.1 / Gemma 2, 7B para custo, 70B para qualidade, escolhido pela latência desejada.
Dados: PixMo + ShareGPT4V + Cauldron, complementados com dados de instrução específicos da tarefa.
Resolução: dinâmica (mínimo 256, máximo 1280 pixels pelo lado mais longo).
Cronograma: Alinhamento de Etapa 1 (apenas projetor), ajuste fino completo de Etapa 2, ajuste fino específico da tarefa de Etapa 3.

Cada um desses padrões remonta a uma ablação medida nos artigos citados no final desta lição.

Como Usar

code/main.py é um analisador de tabela de ablação e seletor de receitas. Ele codifica as tabelas de ablação (condensadas) do MM1 e do Idefics2 e permite que você consulte:

"Dado o orçamento X e a tarefa Y, qual receita vence?"
"Se eu trocar SigLIP por CLIP em um Llama de 7B, qual é a diferença esperada no MMMU?"
"Qual eixo devo ablatar primeiro para obter uma resposta com 80% de confiança?"

A saída é uma lista de receitas ranqueada com as diferenças esperadas nos benchmarks e uma recomendação de "o que ablatar primeiro".

Coloque em Produção

Esta lição produz outputs/skill-vlm-recipe-picker.md. Dada uma mistura de tarefas desejada, um orçamento de computação e uma latência alvo, ele gera uma receita completa (codificador, conector, LLM, mistura de dados, cronograma de resolução) com citações para a ablação que justifica cada escolha. Isso evita que engenheiros reinventem a tabela de ablação do Idefics2 toda vez que um novo projeto de VLM é iniciado.

Exercícios

Leia a Seção 3.2 do MM1. Para um LLM fixo de 2B com orçamento de 50 milhões de imagens, qual codificador vence? A resposta mudaria com um LLM de 13B? Por quê?
O Cambrian-1 descobriu que concatenar DINOv2 + SigLIP supera qualquer um deles sozinho em benchmarks centrados em visão, mas não adiciona sinal no MMMU. Preveja quais benchmarks ganham e quais permanecem estáveis.
Seu alvo é um agente de interface do usuário móvel em um LLM de 2B. Escolha o codificador, conector, resolução e mistura de dados. Justifique cada escolha com uma tabela de ablação específica.
O Molmo disponibiliza modelos de 4B e 72B. O de 4B é competitivo com VLMs proprietários de 7B; o de 72B supera o Llama-3.2-90B-Vision em 11 de 11 benchmarks. O que isso lhe diz sobre a hipótese de platô do tamanho do LLM?
Desenhe uma tabela de ablação para isolar a qualidade da mistura de dados da qualidade do codificador em um VLM de 7B. Quantas execuções de treinamento no mínimo? Proponha as quatro configurações de eixos.

Termos-Chave

Termo	O que as pessoas dizem	O que realmente significa
Ablação	"Ajustar um parâmetro"	Treinar várias execuções que diferem em exatamente um eixo do espaço de design, mantendo todo o resto constante
Conector	"Ponte" / "projetor"	Módulo treinável que mapeia a saída do codificador de visão para o espaço de tokens do LLM (MLP, Q-Former, Perceiver)
Descrição humana detalhada	"Legenda densa"	Uma descrição escrita por humanos com várias frases (geralmente de 80 a 300 tokens), mais rica do que um texto alternativo da web
Destilação	"Legendas do GPT-4V"	Dados de treinamento gerados por um VLM proprietário mais forte; conveniente, mas propenso a herdar alucinações
AnyRes / res dinâmica	"Caminho de alta resolução"	Estratégia para fornecer imagens maiores do que a resolução nativa do codificador via divisão em blocos (tiling) ou M-RoPE
Rampa de resolução	"Currículo"	Cronograma de treinamento que começa com baixa resolução e aumenta, acelerando o aprendizado de alinhamento
Benchmark centrado em visão	"CV-Bench / BLINK"	Avaliação que foca na percepção visual detalhada em vez de raciocínio focado em linguagem
PixMo	"Dados do Molmo"	O conjunto de dados de 712 mil imagens densamente descritas do Allen AI; fala humana transcrita em descrições densas