Phase 12 - Lesson 24

RAG Multimodal y Recuperación Cross-Modal

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

El RAG de documentos nativo de visión es solo una parte. El RAG multimodal en producción va más allá: recupera a través de texto, imágenes, audio y video para flujos de trabajo como la planificación de viajes ("búscame un brunch vegano tranquilo con luz natural"), triaje médico ("qué lesión coincide con esta foto + estas notas"), comercio electrónico ("atuendos similares a esta selfie, en mi talla") y servicio de campo ("diagnosticar este sonido de motor más foto de la pieza"). Tres encuestas de 2025 — Abootorabi et al., Mei et al., Zhao et al. — codificaron los subproblemas: recuperación cross-modal, fusión de recuperación, fundamentación de generación, evaluación multimodal. Esta lección lee las encuestas y diseña una canalización de producción.

Type: Build Languages: Python (stdlib, cross-modal retriever with fusion + grounded generator) Prerequisites: Phase 12 · 23 (ColPali), Phase 11 (RAG basics) Time: ~180 minutos

Objetivos de Aprendizaje

Diseñar la recuperación cross-modal: texto → imagen, imagen → texto, audio → video, etc.
Comparar tres estrategias de fusión: fusión de puntuación (score fusion), fusión basada en atención, fusión MoE.
Explicar la fundamentación de generación: cómo se ve "citar tus fuentes" cuando las fuentes son una combinación de modalidades.
Nombrar las tres encuestas canónicas de RAG multimodal de 2025 y su taxonomía de subproblemas.

El Problema

El RAG de modalidad única es un patrón resuelto: incrustar consulta, incrustar fragmentos, recuperar, enviar al LLM. El RAG multimodal requiere:

Múltiples cabezales de recuperación (cada modalidad necesita incrustaciones en un espacio compatible).
Fusión de resultados de recuperación a través de modalidades.
Fundamentación de generación que cite fuentes a través de modalidades.
Métricas de evaluación que cubran la señal cross-modal.

Las encuestas de 2025 llegan todas a la misma taxonomía.

El Concepto

Recuperación cross-modal

Recuperar documentos de la modalidad B dada una consulta de la modalidad A. Tres patrones:

Espacio de incrustación compartido. CLIP y CLAP producen incrustaciones de texto + imagen / texto + audio en un espacio compartido. La similitud de coseno a través de modalidades funciona directamente. Limitado a pares entrenados con CLIP.
Codificador por modalidad + traducción. Codificador de texto + codificador de imagen + un pequeño módulo traductor que mapea entre espacios. Sen2Sen de Gupta et al. y otros diseños de 2024. Flexible pero añade complejidad.
VLM como codificador. Utilizar los estados ocultos de un VLM como la representación de recuperación. Cualquier modalidad que admita el VLM funciona. Mayor calidad, más costoso.

Elección: CLIP / SigLIP 2 para texto+imagen; CLAP para texto+audio; VLM-hidden-states para cross-modal en calidad de frontera.

Estrategias de fusión

Recuperaste 10 resultados: 5 imágenes, 3 pasajes de texto, 2 clips de audio. ¿Cómo los fusionas?

Fusión de puntuación (la más barata). Cada modalidad tiene su propio recuperador, cada uno devuelve puntuaciones. Normalizar las puntuaciones dentro de la modalidad y luego sumar. Simple, a menudo funciona.

Fusión basada en atención. Concatenar todos los elementos recuperados, dejar que una pequeña red de atención los pondere. Requiere entrenamiento.

Fusión MoE. La red de enrutamiento dirige a expertos específicos de cada modalidad. Los diferentes tipos de consulta se enrutan de manera diferente: una pregunta visual pondera más las imágenes.

Predeterminado de producción: fusión de puntuación con un ligero sesgo hacia la modalidad dominante de la consulta. Actualizar a MoE si las pruebas A/B muestran ganancias claras en tu dominio.

Fundamentación de generación

El LLM debe citar qué elemento recuperado impulsó cada afirmación. Para multimodal:

Fuente de texto: cita estándar [1].
Fuente de imagen: [img 3] con un título corto.
Audio: [audio 2 at 0:34].

Entrenar al generador con datos conscientes de la fundamentación: cada afirmación en el objetivo de entrenamiento se etiqueta con el índice de la fuente. En la inferencia, el modelo emite citas de forma natural.

Las encuestas de 2025

Abootorabi et al. (arXiv:2502.08826, "Ask in Any Modality"): taxonomía para RAG multimodal. Cubre recuperación, fusión, generación. Mayor cobertura.

Mei et al. (arXiv:2504.08748, "A Survey of Multimodal RAG"): se centra en benchmarks de subtareas y modos de fallo. Útil para el diseño de evaluaciones.

Zhao et al. (arXiv:2503.18016): encuesta centrada en visión. Fuerte en el trabajo de la familia ColPali.

Leer las tres te da el estado del arte a partir de la primavera de 2025. La mayoría de los subproblemas siguen abiertos.

MuRAG — el artículo fundacional

MuRAG (Chen et al., 2022) fue el primer RAG multimodal. Recuperaba imagen + texto de una base de conocimiento multimodal, generaba respuestas. Mostró viabilidad antes de la ola de los VLMs. Los sistemas modernos (REACT, VisRAG, M3DocRAG) se basan en él.

Un ejemplo de planificador de viajes de producción

Consulta: "búscame un brunch vegano tranquilo con luz natural."

Pipeline:

Descomponer la consulta. "tranquilo" → palabra clave de audio/reseña; "brunch vegano" → elemento del menú; "luz natural" → característica de la imagen.
Recuperar por modalidad:
- Recuperación de texto en reseñas: "brunch vegano, ambiente tranquilo."
- Recuperación de imagen en fotos de restaurantes: "luz natural, aireado."
- Recuperación de audio en clips de sonido ambiental: "pocos decibelios, sin música."
Fusionar puntuaciones. Cada restaurante tiene una puntuación compuesta.
Top-k restaurantes → generador VLM con toda la evidencia → respuesta con citas.

Esto va mucho más allá de RAG de texto. Cada modalidad añade una señal que el texto solo no capta.

RAG multimodal basado en agentes

Multi-hop: si la primera recuperación no devuelve respuestas de alta confianza, el LLM reformula y recupera de nuevo. Los patrones de RAG basados en agentes de la Fase 14 se aplican aquí. Ejemplos:

Recuperar el top-10 inicial → el LLM pregunta "demasiado ruidoso, filtrar por <40 dB" → recuperar de nuevo.
Recuperar imágenes → el LLM ve que una tiene un menú → recuperar el texto del menú → responder.

Añade complejidad pero maneja consultas que la recuperación de un solo paso no puede.

Evaluación

La evaluación cross-modal es aún inmadura. Proxies comunes:

Recall@k por modalidad.
Precisión top-k fusionada.
Satisfacción de extremo a extremo evaluada por humanos.
Específica de la tarea (reservas completadas, compras realizadas).

No existe un benchmark estándar que abarque todas las modalidades. La mayoría de los artículos evalúan en tareas específicas del dominio.

Úsalo

code/main.py:

Tres recuperadores simulados (texto, imagen, audio) que operan en un corpus compartido de restaurantes.
Fusión de puntuación que combina puntuaciones de modalidad con pesos configurables.
Un esbozo de generador que emite una respuesta final con citas.
Un bucle de agente simple que reformula la consulta si la confianza es baja.

Envíalo

Esta lección produce outputs/skill-multimodal-rag-designer.md. Dada una especificación de producto con un flujo de consulta multimodal, diseña recuperadores, fusión, generador y evaluación.

Ejercicios

Propón un RAG multimodal de triaje médico: consulta = foto de la lesión + síntomas en texto. ¿Qué modalidades recuperan de qué base de conocimiento?
La fusión de puntuación es una suma ponderada simple. ¿Qué modo de fallo tiene que la fusión MoE evita?
Lee la taxonomía de Abootorabi et al. (Sección 3). ¿Cuáles son los tres subproblemas canónicos y cómo se mapean con el producto que elegiste?
Diseña una especificación de evaluación para un RAG multimodal de planificador de viajes. ¿Qué métricas cubren el recall de imagen, el recall de audio y la corrección compuesta?
El RAG multi-hop basado en agentes tiene un costo de latencia por viaje de ida y vuelta. ¿Con qué dificultad de consulta la ganancia de precisión justifica la latencia?

Términos Clave

Term	What people say	What it actually means
Recuperación cross-modal	"Consultar una modalidad, recuperar otra"	La consulta de texto recupera imágenes; la consulta de imagen recupera texto; requiere un espacio compartido o traductor
Fusión de puntuación	"Combinar puntuaciones"	Suma ponderada de las puntuaciones de recuperación por modalidad; la fusión más simple
Fusión MoE	"Expertos enrutados por modalidad"	La red de enrutamiento elige de qué puntuaciones de modalidad confiar por consulta
Generación fundamentada	"Citar tus fuentes"	Cada afirmación en la respuesta se etiqueta con el índice de la fuente
MuRAG	"Primer RAG multimodal"	Artículo de 2022 que estableció el patrón de RAG multimodal
Multi-hop basado en agentes	"Reformular y reintentar"	El LLM vuelve a consultar a los recuperadores cuando la confianza del primer paso es baja