Phase 12 - Lesson 07

Recetas de VLM Open-Weight: Lo Que Realmente Importa

La literatura de VLMs open-weight de 2024-2026 es un bosque de tablas de ablación. MM1 de Apple probó 13 combinaciones de codificador de imagen, conector y mezcla de datos. Molmo de Allen AI demostró que las descripciones detalladas hechas por humanos superan a la destilación de GPT-4V. Cambrian-1 realizó más de 20 comparaciones de codificadores. Idefics2 formalizó el espacio de diseño de cinco ejes. Prismatic VLMs comparó 27 recetas de entrenamiento en un benchmark controlado. De todo ese ruido, un pequeño conjunto de resultados se mantiene en todos los artículos: el codificador de imagen importa más que la arquitectura del conector, la mezcla de datos importa más que ambos, y las descripciones humanas detalladas superan a los datos sintéticos destilados. Esta lección analiza esas tablas para que usted no tenga que hacerlo.

Tipo: Learn + lab Lenguajes: Python (stdlib, analizador de tablas de ablación + selector de recetas) Prerrequisitos: Phase 12 · 05 (LLaVA baseline) Tiempo: ~180 minutos

Objetivos de Aprendizaje

Nombrar el espacio de diseño de VLM de cinco ejes: codificador de imagen, conector, LLM, mezcla de datos, cronograma de resolución.
Leer una tabla de ablación de MM1 / Idefics2 / Cambrian-1 y predecir qué ajuste altera un benchmark determinado.
Elegir una receta (codificador, conector, datos, resolución) para un nuevo VLM dado un presupuesto de computación y una mezcla de tareas.
Explicar por qué las descripciones humanas detalladas superan a la destilación de GPT-4V con la misma cantidad de tokens.

El Problema

Existen cientos de VLMs open-weight. La mayor parte de la brecha entre "bueno" y "estado del arte" no es la arquitectura. Son los datos, el cronograma de resolución y la elección del codificador. Saber qué ajuste realizar primero cuando su modelo no rinde lo esperado le ahorrará un error de 5 millones de horas de GPU.

La ola de 2023 (LLaVA-1.5, InstructBLIP, MiniGPT-4) se ejecutó en preentrenamiento de pares de leyendas + LLaVA-Instruct-150k. Una buena línea de base. Alcanzó su límite alrededor del 35% en MMMU.

La ola de 2024 (MM1, Idefics2, Molmo, Cambrian-1, Prismatic VLMs) ejecutó ablaciones exhaustivas. Los resultados fueron sorprendentes y prácticos.

El Concepto

El espacio de diseño de cinco ejes

Idefics2 (Laurençon et al., 2024) nombró los ejes:

Codificador de imagen. CLIP ViT-L/14, SigLIP SO400m/14, DINOv2 ViT-g/14, InternViT-6B. Los codificadores difieren en el tamaño del parche, la resolución y el objetivo de preentrenamiento.
Conector. MLP (2-4 capas), Q-Former (32 consultas + cross-attn), Perceiver Resampler (64 consultas), C-Abstractor (convolucional + pooling bilineal).
Modelo de lenguaje. Llama-3 8B / 70B, Mistral 7B, Phi-3, Gemma-2, Qwen2.5. El tamaño del LLM es el costo de parámetros dominante.
Datos de entrenamiento. Pares de leyendas (CC3M, LAION), intercalados (OBELICS, MMC4), instrucción (LLaVA-Instruct, ShareGPT4V, PixMo, Cauldron).
Cronograma de resolución. Fijo 224/336/448, AnyRes, dinámico nativo. Rampa durante el entrenamiento o constante.

Cada VLM en producción hace una elección en cada eje. La mayor parte de la variación en las puntuaciones de MMMU se explica por los ejes 1, 4 y 5, no por qué conector se eligió.

Eje 1: codificador > conector

La Sección 3.2 de MM1 mostró: cambiar de CLIP ViT-L/14 a SigLIP SO400m/14 agregó más de 3 puntos en MMMU. Cambiar el conector de MLP a Perceiver Resampler agregó menos de 1 punto. Idefics2 replicó: SigLIP > CLIP, Q-Former ≈ MLP ≈ Perceiver con la misma cantidad de tokens.

"Cambrian Vision Encoders Match-Up" de Cambrian-1 (Tong et al., 2024) ejecutó más de 20 codificadores en un benchmark centrado en la visión (CV-Bench). La parte superior de la tabla de clasificación es una mezcla de DINOv2 y SigLIP; CLIP está en el medio del pelotón; ImageBind y ViT-MAE están más abajo. La brecha de CLIP ViT-L a DINOv2 ViT-g/14 es de ~5-7 puntos en CV-Bench.

El codificador predeterminado de 2026 para VLMs abiertos es SigLIP 2 SO400m/14 para características semánticas + densas, a veces concatenado con características de DINOv2 ViT-g/14 (el "Spatial Vision Aggregator" de Cambrian hace esto).

Eje 2: el diseño del conector es irrelevante

MM1, Idefics2, Prismatic y MM-Interleaved llegaron a la misma conclusión: con una cantidad fija de tokens visuales, la arquitectura del conector apenas importa. Un MLP de 2 capas en parches con pooling promedio se desempeña con una diferencia menor a 1 punto respecto a un Q-Former de 32 consultas con el mismo presupuesto de tokens.

Lo que sí importa es la cantidad de tokens. Más tokens visuales = más computación de LLM = mejor rendimiento hasta cierto punto, luego retornos decrecientes. 64 tokens por imagen es muy poco para OCR. Entre 576 y 1024 tokens es el punto ideal para la mayoría de los VLMs abiertos. Más de 2048 ayuda solo para documentos y gráficos.

Q-Former vs MLP es una cuestión de costo, no de calidad: Q-Former limita los tokens a 32-64 independientemente de la resolución de la imagen; MLP emite todos los tokens de los parches. Para entradas de alta resolución, Q-Former ahorra contexto de LLM; para baja resolución, la diferencia es ruido.

Eje 3: el tamaño del LLM define el techo

Duplicar el LLM de 7B a 13B agrega de manera confiable de 2 a 4 puntos en MMMU en todos los artículos de VLM. Con 70B se satura la mayoría de los benchmarks. El techo de razonamiento multimodal del VLM es el techo de razonamiento de texto del LLM: el codificador visual solo puede alimentarlo, no razonar por él.

Es esto por lo que Qwen2.5-VL-72B y Claude Opus 4.7 superan ampliamente a MMMU-Pro y ScreenSpot-Pro: el cerebro del lenguaje es enorme. Un VLM de 7B no puede sustituir a un VLM de 70B mediante un diseño de conector inteligente.

Eje 4: datos — las descripciones detalladas hechas por humanos superan a la destilación

Molmo + PixMo (Deitke et al., 2024) es el resultado de 2024 que todos deberían leer. Allen AI hizo que anotadores humanos describieran imágenes en sesiones densas de voz a texto de 1 a 3 minutos, obteniendo 712 mil imágenes densamente descritas. Sin destilación de GPT-4V en ninguna parte de los datos de entrenamiento.

Molmo-72B superó a Llama-3.2-90B-Vision en 11 de 11 benchmarks. La diferencia no es la arquitectura, sino la calidad de las leyendas. Las descripciones humanas detalladas contienen de 5 a 10 veces más información por imagen que las leyendas web cortas y permanecen factualmente fundamentadas donde la destilación de GPT-4V alucina.

ShareGPT4V (Chen et al., 2023) y Cauldron (Idefics2) siguieron la misma estrategia con leyendas mixtas de humanos + GPT-4V. La tendencia es clara: para la frontera de 2026, densidad de leyenda > cantidad de leyenda > conveniencia de la destilación.

Eje 5: resolución y su cronograma

Ablaciones de Idefics2: 384 -> 448 agrega 1 o 2 puntos. 448 -> 980 con división de imagen (AnyRes) agrega otros 3 o 5 puntos en benchmarks de OCR. El entrenamiento con resolución fija se estanca en una precisión media; la rampa de resolución (comenzar en 224, terminar en 448 o nativo) entrena más rápido y termina con mejores resultados.

Cambrian-1 ejecutó un equilibrio entre resolución y tokens: a computación fija, se pueden tener más tokens a menor resolución o menos tokens a mayor resolución. La mayor resolución gana para OCR; menor resolución con más tokens gana para la comprensión general de escenas.

La receta de producción para 2026: entrenar la Etapa 1 en 384 fijo, Etapa 2 con resolución dinámica de hasta 1280 para tareas pesadas de OCR.

La comparación controlada de Prismatic

Prismatic VLMs (Karamcheti et al., 2024) es el artículo que controlou todos los ejes. Mismo LLM de 13B, mismos datos de instrucción, misma evaluación: solo un eje varía a la vez. Resultados:

La cantidad de tokens visuales por imagen explica ~60% de la varianza.
La elección del codificador explica ~20%.
La arquitectura del conector explica ~5%.
Todo lo demás (mezcla de datos, programador, tasa de aprendizaje) el ~15% restante.

Esta es una descomposición aproximada, pero es la respuesta más clara en la literatura sobre "qué debería ablatar primero".

Un selector para 2026

Dada la evidencia, la receta predeterminada de VLM abierto para un nuevo proyecto en 2026:

Codificador: SigLIP 2 SO400m/14 a resolución nativa con NaFlex, concatenado con DINOv2 ViT-g/14 para características densas si se necesita segmentación/localización (grounding).
Conector: MLP de 2 capas en tokens de parches. Omitir Q-Former a menos que haya restricción de tokens.
LLM: Qwen2.5 / Llama-3.1 / Gemma 2, 7B para costo, 70B para calidad, elegido según la latencia objetivo.
Datos: PixMo + ShareGPT4V + Cauldron, complementado con datos de instrucción específicos de la tarea.
Resolución: dinámica (mínimo 256, máximo 1280 píxeles en el lado más largo).
Cronograma: Alineación en Etapa 1 (solo proyector), ajuste fino completo en Etapa 2, ajuste fino específico de la tarea en Etapa 3.

Cada uno de esos valores predeterminados se remonta a una ablación medida en los artículos citados al final de esta lección.

Cómo Usar

code/main.py es un analizador de tablas de ablación y selector de recetas. Codifica las tablas de ablación de MM1 e Idefics2 (condensadas) y permite realizar consultas:

"Dado un presupuesto X y una tarea Y, ¿qué receta gana?"
"Si cambio SigLIP por CLIP en un Llama de 7B, ¿cuál es la diferencia esperada en MMMU?"
"¿Qué eje debería ablatar primero para obtener una respuesta con un 80% de confianza?"

La salida es una lista ordenada de recetas con las diferencias de rendimiento esperadas y una recomendación de "qué ablatar primero".

Implementación

Esta lección produce outputs/skill-vlm-recipe-picker.md. Dada una mezcla de tareas objetivo, un presupuesto de computación y una latencia objetivo, genera una receta completa (codificador, conector, LLM, mezcla de datos, cronograma de resolución) con citas de la ablación que justifica cada elección. Evita que los ingenieros reinventen la tabla de ablación de Idefics2 cada vez que comienza un nuevo proyecto de VLM.

Ejercicios

Lea la Sección 3.2 de MM1. Para un LLM de 2B fijo con un presupuesto de 50 millones de imágenes, ¿qué codificador gana? ¿Cambiaría la respuesta con un LLM de 13B? ¿Por qué?
Cambrian-1 encuentra que la concatenación de DINOv2 + SigLIP supera a cualquiera por separado en benchmarks centrados en la visión, pero no añade señal en MMMU. Prediga qué benchmarks mejoran y cuáles permanecen estables.
Su objetivo es un agente de interfaz de usuario móvil en un LLM de 2B. Elija codificador, conector, resolución y mezcla de datos. Justifique cada elección con una tabla de ablación específica.
Molmo ofrece modelos de 4B y 72B. El de 4B es competitivo con VLMs cerrados de 7B; el de 72B supera a Llama-3.2-90B-Vision en 11 de 11 benchmarks. ¿Qué le dice eso sobre la hipótesis del estancamiento según el tamaño del LLM?
Diseñe una tabla de ablación para aislar la calidad de la mezcla de datos del codificador en un VLM de 7B. ¿Cuántas ejecuciones de entrenamiento como mínimo? Proponga las cuatro configuraciones de ejes.

Términos Clave

Término	Lo que dice la gente	Lo que realmente significa
Ablación	"Ajustar un parámetro"	Entrenar múltiples ejecuciones que difieren exactamente en un eje del espacio de diseño, manteniendo todo lo demás constante
Conector	"Puente" / "proyector"	Módulo entrenable que mapeia la salida del codificador de visión al espacio de tokens del LLM (MLP, Q-Former, Perceiver)
Descripción humana detallada	"Leyenda densa"	Una descripción de varias oraciones escrita por humanos (normalmente de 80 a 300 tokens) más rica que un texto alternativo de la web
Destilación	"Leyendas de GPT-4V"	Datos de entrenamiento generados por un VLM propietario más fuerte; conveniente pero propenso a herdar alucinaciones
AnyRes / res dinámica	"Ruta de alta resolución"	Estrategia para alimentar imágenes más grandes que la resolución nativa del codificador mediante división por cuadrículas (tiling) o M-RoPE
Rampa de resolución	"Currículum"	Cronograma de entrenamiento que comienza con baja resolución y aumenta, acelerando el aprendizaje de la alineación
Benchmark centrado en visión	"CV-Bench / BLINK"	Evaluación que enfatiza la percepción visual detallada en lugar del razonamiento centrado en el lenguaje
PixMo	"Datos de Molmo"	El conjunto de datos de 712 mil imágenes densamente descritas de Allen AI; voz humana transcrita en descripciones densas