Phase 12 - Lesson 10

InternVL3: Preentrenamiento Multimodal Nativo

Cada VLM abierto antes de InternVL3 seguía la misma receta de tres pasos: tomar un LLM de texto entrenado en billones de tokens de texto, acoplar un codificador de visión y luego ajustar las uniones. Esto funciona pero genera una deuda de alineación: el LLM de texto ha gastado todo su presupuesto de preentrenamiento en texto puro y no comprende de forma nativa los tokens visuales. Cuando se añade visión post-hoc, el LLM tiene que volver a aprender a relacionar la entrada visual con su razonamiento de texto sin olvidar el texto. InternVL3 (Zhu et al., abril de 2025) rechaza el enfoque post-hoc: una sola ejecución de preentrenamiento, con texto y contenido multimodal intercalados desde el primer paso. El resultado está a la altura de Gemini 2.5 Pro en MMMU-Pro con 78B de parámetros abiertos. Esta lección analiza el caso del preentrenamiento nativo y lo que cambia al implementarlo.

Tipo: Learn Idiomas: Python (stdlib, training-corpus mixer) Requisitos previos: Phase 12 · 05, Phase 12 · 07 (recipes) Tiempo: ~120 minutos

Objetivos de Aprendizaje

  • Explicar por que el entrenamiento de VLM post-hoc acumula deuda de alineación, citando los tres síntomas medibles (olvido catastrófico, deriva de respuestas, inconsistencia visual-texto).
  • Describir la mezcla de corpus de preentrenamiento nativo de InternVL3 y por qué es importante la proporción de texto : intercalado : leyenda.
  • Comparar V2PE (variable visual position encoding) con M-RoPE de Qwen2-VL.
  • Nombrar las optimizaciones de despliegue Visual Resolution Router (ViR) y Decoupled Vision-Language (DvD).

El Problema

El entrenamiento de VLM post-hoc es el estándar. LLaVA, BLIP-2, Qwen-VL, Idefics: todos toman un LLM ya preentrenado (Llama, Vicuna, Qwen, Mistral) y le añaden visión. Las etapas de entrenamiento suelen ser las siguientes:

  1. LLM congelado + codificador de visión congelado + proyector entrenable, entrenado en pares de leyenda para alinear los embeddings.
  2. Descongelar el LLM, entrenar en datos de instrucción (LLaVA-Instruct, ShareGPT4V).
  3. Ajuste fino opcional específico para la tarea.

Aparecen tres síntomas de deuda de alineación:

  • Olvido catastrófico. El VLM post-hoc olvida las habilidades exclusivas de texto. Las puntuaciones de GSM8K caen de 5 a 10 puntos. Las puntuaciones de Hellaswag caen. Los agentes de solo texto retroceden.
  • Deriva de respuestas. Pequeñas variaciones en la formulación de la misma pregunta visual obtienen respuestas diferentes. El codificador de visión se conecta al LLM con enlaces más débiles que los propios tokens del LLM.
  • Inconsistencia visual-texto. El VLM puede describir una imagen correctamente y luego responder a una pregunta contradiciendo su propia descripción. Los tokens visuales no participan en las comprobaciones de consistencia interna del LLM de la misma manera que el texto.

Estos síntomas están bien documentados. La Sección 4 de MM1.5 los cuantifica. Los estudios de ablación de LLaVA-OneVision apuntan a ellos. El preentrenamiento nativo es la respuesta.

El Concepto

Preentrenamiento multimodal nativo

InternVL3 se entrena desde cero en un corpus que es multimodal nativo desde el primer paso. La mezcla es:

  • 40% de datos de solo texto (FineWeb, Proof-Pile-2, etc.)
  • 35% de datos intercalados de imagen y texto (estilo OBELICS, MMC4)
  • 20% de datos emparejados de imagen y leyenda
  • 5% de datos de video y texto

Los tokens de visión, los tokens de texto y las interacciones transmodales participan en la misma pérdida (loss) desde el primer paso de gradiente. Sin preentrenamiento de alineación, sin etapa de congelación del proyector, sin olvido catastrófico del que recuperarse.

El entrenamiento es de una sola etapa para el modelo base. El ajuste de instrucción (instruction tuning) se realiza a continuación, pero el modelo base ya entiende los tokens visuales como ciudadanos de primera clase.

V2PE (variable visual position encoding)

Qwen2-VL utiliza M-RoPE con asignación de eje fija. InternVL3 introduce V2PE: la codificación de posición varía según el tipo de modalidad (texto, imagen, video) con escalado aprendible. En la práctica:

  • Los tokens de texto obtienen una posición 1D (índice de texto).
  • Los parches de imagen obtienen una posición 2D (fila, columna).
  • Los fotogramas de video obtienen una posición 3D (tiempo, fila, columna).

Los tres comparten la misma base de frecuencia RoPE, pero la asignación de dimensión oculta (hidden-dim) por banda es un parámetro aprendido en lugar de una división fija. Libertad para equilibrar la resolución de frecuencia temporal frente a la espacial durante el preentrenamiento.

La afirmación de ablación de V2PE: 1-2 puntos en benchmarks de video sobre M-RoPE con el mismo cómputo. No es una revolución, pero es más limpio.

Visual Resolution Router (ViR)

Optimización de despliegue. No todas las imágenes necesitan codificación a resolución completa. Una foto con un solo objeto con pocos detalles desperdicia tokens cuando se codifica a 1280px nativos. ViR es un pequeño clasificador que predice la resolución mínima necesaria para responder a la pregunta, antes de la codificación.

El enrutamiento tiene tres niveles: baja resolución (256 tokens), media (576) y alta (2048+). Para el 60% de las consultas en el tráfico de producción, la resolución baja o media es suficiente. Efecto neto: 2-3x más rendimiento (throughput) con la misma calidad.

Decoupled Vision-Language deployment (DvD)

Cuando se sirve un VLM grande, el codificador de visión se ejecuta una vez por imagen, pero el LLM se ejecuta de forma autorregresiva para cada token de salida. Los dos componentes tienen cuellos de botella diferentes (visión = ancho de banda de memoria de la GPU para convolución + atención; LLM = KV cache). DvD los divide en GPU separadas con streaming entre ellas.

Para un modelo de 8B + codificador de 400M, DvD aproximadamente duplica el rendimiento por nodo en comparación con el despliegue conjunto (co-located).

Single-stage vs multi-stage quality

La principal afirmación de benchmark de InternVL3: con 78B de parámetros, igualar a Gemini 2.5 Pro en MMMU-Pro. Con 38B, igualar a GPT-4o. Con 8B, liderar la clasificación de 8B abiertos. Todo en una receta de preentrenamiento de una sola etapa + ajuste de instrucción.

La hipótesis de la deuda de alineación es medible: InternVL3-8B pierde menos puntos en benchmarks de texto (MMLU, GSM8K) que Qwen2.5-VL-7B por unidad de ganancia en benchmark de visión. El modelo es más generalista porque el entrenamiento fue una sola pieza, no dos.

InternVL3.5 e InternVL-U

InternVL3.5 (agosto de 2025) escala la receta. Mismo enfoque de preentrenamiento nativo, más datos, más parámetros. Las mejoras de MMMU son incrementales.

InternVL-U (2026) añade generación unificada: salida de imágenes a través de cabezales MMDiT sobre el mismo backbone. La "U" significa "Understanding + generation" (Comprensión + generación), buscando modelos unificados al estilo Transfusion (Lección 12.13). El mismo backbone de preentrenamiento nativo admite tanto cabezales de comprensión como de generación.

Trade-offs del preentrenamiento nativo

El preentrenamiento nativo no es gratuito:

  • Cómputo. Entrenar un nuevo VLM desde cero cuesta lo mismo que entrenar un LLM de texto: millones de horas de GPU. La adaptación post-hoc reutiliza los pesos del LLM existente, ahorrando la mayor parte del costo.
  • Datos. Los corpora intercalados de imagen y texto a gran escala son raros. OBELICS tiene 141M de documentos; MMC4 tiene 571M. Solo el texto se entrega a 15T de tokens. La escasez de datos de preentrenamiento multimodal es una restricción difícil.
  • Reutilización del LLM base. El preentrenamiento nativo renuncia a la opción de integrar un nuevo LLM más adelante. El post-hoc permite cambiar Llama-3.1 por Llama-4 volviendo a entrenar solo el adaptador.

La apuesta que hace InternVL3: la deuda de alineación es peor que la pérdida de reutilización. Los benchmarks respaldan la afirmación. El costo de producción impide que futuros laboratorios lo repliquen de forma barata. Los VLMs post-hoc seguirán existiendo porque siguen siendo más baratos para la mayoría de los proyectos.

Úselo

code/main.py es un simulador de enrutador ViR y mezclador de corpus de entrenamiento. Este:

  • Toma una mezcla de corpus objetivo (% de texto, % de intercalado, % de leyenda, % de video) y calcula los pasos esperados por modalidad.
  • Simula el enrutamiento ViR en un lote de consultas (distribución: 50% de detalle bajo, 30% medio, 20% de detalle alto) y reporta el recuento promedio de tokens.
  • Reporta estimaciones de rendimiento (throughput) de DvD dados los FLOPs del codificador frente a los del LLM.
  • Imprime una comparación lado a lado del preentrenamiento post-hoc frente al nativo en parámetros, cómputo, datos y síntomas esperados de deuda de alineación.

Envíelo

Esta lección produce outputs/skill-native-vs-posthoc-auditor.md. Dado un plan de entrenamiento de VLM propuesto, audita si se debe adoptar el enfoque nativo o post-hoc, señala el riesgo de deuda de alineación y recomienda una mezcla de corpus. Úselo cuando esté dimensionando un nuevo proyecto de VLM abierto y necesite elegir la estrategia de entrenamiento.

Ejercicios

  1. Estime la diferencia (delta) de cómputo entre InternVL3-8B (preentrenamiento nativo) y LLaVA-OneVision-7B (post-hoc). ¿Cuál es la proporción aproximada de horas de GPU? ¿Qué explica la brecha?

  2. InternVL3 reporta 40% texto / 35% intercalado / 20% leyenda / 5% video. Si su tarea objetivo requiere mucho video, proponga una nueva proporción y argumente por que el modelo base aún necesita una cantidad sustancial de datos de texto y leyenda.

  3. Lea la Sección 4 de MM1.5 sobre el olvido. Nombre el benchmark exacto donde el entrenamiento post-hoc mostró la mayor regresión. ¿Cuánto costó la regresión?

  4. ViR enruta el 60% del tráfico a codificación de baja resolución. ¿Qué tipo de consultas enruta incorrectamente (las envía a baja resolución cuando se necesitaba alta resolución)? Proponga tres modos de fallo del enrutador.

  5. DvD divide la visión y el LLM en GPUs separadas. ¿Bajo qué patrón de tráfico el DvD perjudica el rendimiento (throughput) en lugar de ayudar?

Términos Clave

Término Lo que la gente dice Lo que realmente significa
Native multimodal pretraining "Desde cero juntos" Los tokens de texto + imagen + video participan en la pérdida (loss) desde el paso 1, no acoplados más tarde
Alignment debt "Penalidad post-hoc" Regresión medible en las habilidades de texto y la consistencia de las respuestas que proviene de acoplar la visión a un LLM congelado
V2PE "Codificación var. de pos. visual" Asignación de codificación de posición aprendible por modalidad; sucesor de M-RoPE en InternVL3
ViR "Enrutador de resolución" Pequeño clasificador que elige la resolución mínima necesaria por consulta antes de la codificación, ahorrando tokens de inferencia
DvD "Despliegue desacoplado" Codificador de visión en una GPU, LLM en otra, con transferencia por streaming; duplica el rendimiento para VLMs grandes
InternVL-U "Comprensión + generación unificadas" Secuela de 2026 que añade cabezales de generación de imágenes al backbone de preentrenamiento nativo
Interleaved corpus "OBELICS / MMC4" Documentos con texto e imágenes en orden natural de lectura; la materia prima para el preentrenamiento nativo

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).