Phase 12 - Lesson 10

InternVL3: Pré-treinamento Multimodal Nativo

Todo VLM aberto anterior ao InternVL3 seguia a mesma receita de três etapas: pegar um LLM de texto treinado em trilhões de tokens de texto, acoplar um codificador de visão e, em seguida, ajustar as junções. Isso funciona, mas gera uma dívida de alinhamento — o LLM de texto gastou todo o seu orçamento de pré-treinamento em texto puro e não compreende tokens visuais nativamente. Ao adicionar visão post-hoc, o LLM precisa reaprender a relacionar a entrada visual com seu raciocínio de texto sem esquecer o texto. O InternVL3 (Zhu et al., abril de 2025) rejeita a abordagem post-hoc: uma única rodada de pré-treinamento, com texto e multimodal intercalados desde a primeira etapa. O resultado se equipara ao Gemini 2.5 Pro no MMMU-Pro com 78B de parâmetros abertos. Esta lição apresenta o caso do pré-treinamento nativo e o que muda ao adotá-lo.

Tipo: Learn Idiomas: Python (stdlib, training-corpus mixer) Pré-requisitos: Phase 12 · 05, Phase 12 · 07 (recipes) Tempo: ~120 minutos

Objetivos de Aprendizagem

  • Explicar por que o treinamento de VLM post-hoc acumula dívida de alinhamento, citando os três sintomas mensuráveis (esquecimento catastrófico, desvio de resposta, inconsistência visual-texto).
  • Descrever a mistura de corpus de pré-treinamento nativo do InternVL3 e por que a proporção de texto : intercalado : legenda importa.
  • Comparar o V2PE (variable visual position encoding) com o M-RoPE do Qwen2-VL.
  • Nomear as otimizações de implantação do Visual Resolution Router (ViR) e Decoupled Vision-Language (DvD).

O Problema

O treinamento de VLM post-hoc é o padrão. LLaVA, BLIP-2, Qwen-VL, Idefics — todos pegam um LLM já pré-treinado (Llama, Vicuna, Qwen, Mistral) e adicionam visão. As etapas de treinamento geralmente se parecem com:

  1. LLM congelado + codificador de visão congelado + projetor treinável, treinado em pares de legenda para alinhar os embeddings.
  2. Descongelar o LLM, treinar em dados de instrução (LLaVA-Instruct, ShareGPT4V).
  3. Ajuste fino opcional específico para a tarefa.

Três sintomas de dívida de alinhamento aparecem:

  • Esquecimento catastrófico. O VLM post-hoc esquece habilidades exclusivas de texto. As pontuações do GSM8K caem de 5 a 10 pontos. As pontuações do Hellaswag caem. Agentes de texto puro regridem.
  • Desvio de resposta. Pequenas variações na formulação da mesma pergunta visual obtêm respostas diferentes. O codificador de visão se conecta ao LLM com vínculos mais fracos do que os próprios tokens do LLM.
  • Inconsistência visual-texto. O VLM pode descrever uma imagem corretamente e depois responder a uma pergunta contradizendo sua própria descrição. Os tokens visuais não participam das verificações de consistência interna do LLM da mesma forma que o texto.

Esses sintomas são bem documentados. A Seção 4 do MM1.5 os quantifica. Os estudos de ablação do LLaVA-OneVision dão indícios deles. O pré-treinamento nativo é a resposta.

O Conceito

Pré-treinamento multimodal nativo

O InternVL3 treina do zero em um corpus que é multimodal nativo desde a primeira etapa. A mistura é:

  • 40% de dados apenas de texto (FineWeb, Proof-Pile-2, etc.)
  • 35% de dados intercalados de imagem-texto (estilo OBELICS, MMC4)
  • 20% de dados pareados de imagem-legenda
  • 5% de dados de vídeo-texto

Tokens de visão, tokens de texto e interações cross-modais participam todos da mesma perda (loss) a partir do primeiro passo de gradiente. Sem pré-treinamento de alinhamento, sem etapa de congelamento de projetor, sem esquecimento catastrófico para se recuperar.

O treinamento ocorre em uma única etapa para o modelo base. O ajuste de instrução (instruction tuning) vem a seguir, mas o modelo base já compreende tokens visuais como cidadãos de primeira classe.

V2PE (variable visual position encoding)

O Qwen2-VL usa M-RoPE com alocação de eixo fixa. O InternVL3 introduz o V2PE: a codificação de posição varia por tipo de modalidade (texto, imagem, vídeo) com escala aprendível. Na prática:

  • Tokens de texto recebem posição 1D (índice do texto).
  • Patches de imagem recebem posição 2D (linha, coluna).
  • Quadros de vídeo recebem posição 3D (tempo, linha, coluna).

Os três compartilham a mesma base de frequência RoPE, mas a alocação de dimensão oculta (hidden-dim) por banda é um parâmetro aprendido em vez de uma divisão fixa. Liberdade para ponderar a resolução de frequência temporal versus espacial durante o pré-treinamento.

A alegação de ablação do V2PE: 1-2 pontos em benchmarks de vídeo sobre o M-RoPE no mesmo nível de computação. Não é uma revolução, mas é mais elegante.

Visual Resolution Router (ViR)

Otimização de implantação. Nem todas as imagens precisam de codificação em resolução total. Uma foto com um único objeto e poucos detalhes desperdiça tokens quando codificada a 1280px nativos. O ViR é um pequeno classificador que prevê a resolução mínima necessária para responder à pergunta, antes da codificação.

O roteamento possui três níveis: baixa resolução (256 tokens), média (576) e alta (2048+). Para 60% das consultas no tráfego de produção, baixa ou média resolução é suficiente. Efeito prático: 2-3x mais taxa de transferência (throughput) com a mesma qualidade.

Decoupled Vision-Language deployment (DvD)

Quando você serve um VLM grande, o codificador de visão executa uma vez por imagem, mas o LLM executa de forma autorregressiva para cada token de saída. Os dois componentes têm gargalos diferentes (visão = largura de banda de memória da GPU para convolução + atenção; LLM = KV cache). O DvD os divide em GPUs separadas com streaming entre elas.

Para um modelo de 8B + codificador de 400M, o DvD aproximadamente dobra a taxa de transferência por nó em comparação com a implantação conjunta (co-located).

Single-stage vs multi-stage quality

A principal alegação de benchmark do InternVL3: com 78B de parâmetros, equiparar-se ao MMMU-Pro do Gemini 2.5 Pro. Com 38B, equiparar-se ao GPT-4o. Com 8B, liderar o ranking de 8B abertos. Tudo em uma receita de pré-treinamento de etapa única + ajuste de instrução.

A hipótese da dívida de alinhamento é mensurável: o InternVL3-8B perde menos pontos em benchmarks de texto (MMLU, GSM8K) do que o Qwen2.5-VL-7B por unidade de ganho em benchmark de visão. O modelo é mais generalista porque o treinamento foi unificado, não dividido em duas partes.

InternVL3.5 e InternVL-U

O InternVL3.5 (agosto de 2025) dimensiona a receita. Mesma abordagem de pré-treinamento nativo, mais dados, mais parâmetros. As melhorias no MMMU são incrementais.

O InternVL-U (2026) adiciona geração unificada — saída de imagem via cabeças MMDiT no topo do mesmo backbone. O "U" significa "Understanding + generation" (Compreensão + geração), buscando modelos unificados no estilo Transfusion (Lição 12.13). O mesmo backbone de pré-treinamento nativo suporta tanto cabeças de compreensão quanto de geração.

Trade-offs do pré-treinamento nativo

O pré-treinamento nativo não é gratuito:

  • Computação. Treinar um novo VLM do zero custa o mesmo que treinar um LLM de texto — milhões de horas de GPU. A adaptação post-hoc reutiliza os pesos do LLM existente, economizando a maior parte do custo.
  • Dados. Corpora intercalados de imagem-texto em grande escala são raros. O OBELICS possui 141M de documentos; o MMC4 possui 571M. O texto sozinho chega a 15T de tokens. A escassez de dados de pré-treinamento multimodal é uma restrição severa.
  • Reutilização do LLM base. O pré-treinamento nativo abre mão da opção de implantar um novo LLM posteriormente. O post-hoc permite trocar o Llama-3.1 pelo Llama-4 treinando apenas o adaptador novamente.

A aposta que o InternVL3 faz: a dívida de alinhamento é pior do que a perda de reutilização. Os benchmarks sustentam a afirmação. O custo de produção impede que futuros laboratórios repliquem o processo de forma barata. VLMs post-hoc continuarão existindo porque continuam sendo mais baratos para a maioria dos projetos.

Use-o

O code/main.py é um misturador de corpus de treinamento e simulador de roteador ViR. Ele:

  • Recebe uma mistura de corpus alvo (% de texto, % de intercalado, % de legenda, % de vídeo) e calcula os passos esperados por modalidade.
  • Simula o roteamento ViR em um lote de consultas (distribuição: 50% de detalhes baixos, 30% médios, 20% de detalhes altos) e relata a contagem média de tokens.
  • Relata estimativas de taxa de transferência (throughput) do DvD dados os FLOPs do codificador versus do LLM.
  • Imprime uma comparação lado a lado do pré-treinamento post-hoc versus nativo em relação a parâmetros, computação, dados e sintomas esperados de dívida de alinhamento.

Envie-o

Esta lição produz outputs/skill-native-vs-posthoc-auditor.md. Dado um plano de treinamento de VLM proposto, ele audita se deve adotar a abordagem nativa ou post-hoc, sinaliza o risco de dívida de alinhamento e recomenda uma mistura de corpus. Use-o quando estiver dimensionando um novo projeto de VLM aberto e precisar escolher a estratégia de treinamento.

Exercícios

  1. Estime a diferença (delta) de computação entre o InternVL3-8B (pré-treinamento nativo) e o LLaVA-OneVision-7B (post-hoc). Qual a proporção aproximada de horas de GPU? O que explica essa diferença?

  2. O InternVL3 relata 40% texto / 35% intercalado / 20% legenda / 5% vídeo. Se a sua tarefa alvo for focada em vídeo, proponha uma nova proporção e argumente por que o modelo base ainda precisa de dados substanciais de texto e legenda.

  3. Leia a Seção 4 do MM1.5 sobre esquecimento. Nomeie o benchmark exato onde o treinamento post-hoc mostrou a maior regressão. Quanto custou essa regressão?

  4. O ViR roteia 60% do tráfego para codificação de baixa resolução. Que tipos de consultas ele roteia incorretamente (envia para baixa resolução quando alta resolução era necessária)? Proponha três modos de falha do roteador.

  5. O DvD divide a visão e o LLM em GPUs separadas. Sob qual padrão de tráfego o DvD prejudica a taxa de transferência (throughput) em vez de ajudar?

Termos-Chave

Termo O que as pessoas dizem O que realmente significa
Native multimodal pretraining "Do zero juntos" Tokens de texto + imagem + vídeo participam da perda (loss) desde a etapa 1, não adicionados posteriormente
Alignment debt "Penalidade post-hoc" Regressão mensurável nas habilidades de texto e na consistência das respostas que ocorre ao acoplar visão a um LLM congelado
V2PE "Codificação var. de pos. visual" Alocação de codificação de posição aprendível por modalidade; sucessor do M-RoPE no InternVL3
ViR "Roteador de resolução" Pequeno classificador que escolhe a resolução mínima necessária por consulta antes da codificação, economizando tokens de inferência
DvD "Implantação desacoplada" Codificador de visão em uma GPU, LLM em outra, com transferência por streaming; dobra a taxa de transferência para VLMs grandes
InternVL-U "Compreensão + geração unificadas" Extensão de 2026 que adiciona cabeças de geração de imagens ao backbone de pré-treinamento nativo
Interleaved corpus "OBELICS / MMC4" Documentos com texto e imagens na ordem natural de leitura; a matéria-prima para o pré-treinamento nativo

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).