Phase 12 - Lesson 24

RAG Multimodal e Recuperação Cross-Modal

This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.

O RAG de documentos nativo de visão é uma fatia. O RAG multimodal em produção vai além — recuperando entre texto, imagens, áudio e vídeo para fluxos de trabalho como planejamento de viagens ("encontre-me um brunch vegano silencioso com luz natural"), triagem médica ("qual lesão corresponde a esta foto + estas notas"), e-commerce ("roupas semelhantes a esta selfie, no meu tamanho") e serviço de campo ("diagnosticar este som de motor mais foto da peça"). Três pesquisas de 2025 — Abootorabi et al., Mei et al., Zhao et al. — codificaram os subproblemas: recuperação cross-modal, fusão de recuperação, aterramento de geração, avaliação multimodal. Esta lição lê as pesquisas e projeta um pipeline de produção.

Tipo: Construir Idiomas: Python (stdlib, recuperador cross-modal com fusão + gerador aterrado) Pré-requisitos: Phase 12 · 23 (ColPali), Phase 11 (conceitos básicos de RAG) Tempo: ~180 minutos

Objetivos de Aprendizagem

Projetar recuperação cross-modal: texto → imagem, imagem → texto, áudio → vídeo, etc.
Comparar três estratégias de fusão: fusão de pontuação (score fusion), fusão baseada em atenção, fusão MoE.
Explicar o aterramento de geração: como é a aparência de "citar suas fontes" quando as fontes são uma mistura de modalidades.
Nomear as três pesquisas canônicas de RAG multimodal de 2025 e sua taxonomia de subproblemas.

O Problema

O RAG de modalidade única é um padrão resolvido: incorporar consulta, incorporar fragmentos, recuperar, inserir no LLM. O RAG multimodal requer:

Múltiplas cabeças de recuperação (cada modalidade precisa de embeddings em um espaço compatível).
Fusão de resultados de recuperação entre modalidades.
Aterramento de geração que cita fontes entre modalidades.
Métricas de avaliação que cobrem o sinal cross-modal.

As pesquisas de 2025 chegam todas à mesma taxonomia.

O Conceito

Recuperação cross-modal

Recuperar documentos da modalidade B dada uma consulta da modalidade A. Três padrões:

Espaço de embedding compartilhado. CLIP e CLAP produzem embeddings de texto + imagem / texto + áudio em um espaço compartilhado. A similaridade de cosseno entre modalidades funciona diretamente. Limitado a pares treinados no CLIP.
Codificador por modalidade + tradução. Codificador de texto + codificador de imagem + um pequeno módulo tradutor que mapeia entre os espaços. Sen2Sen de Gupta et al. e outros designs de 2024. Flexível, mas adiciona complexidade.
VLM como codificador. Use os estados ocultos de um VLM como a representação de recuperação. Qualquer modalidade que o VLM suporte funciona. Maior qualidade, mais caro.

Escolha: CLIP / SigLIP 2 para texto+imagem; CLAP para texto+audio; estados ocultos de VLM para cross-modal em qualidade de fronteira.

Estratégias de fusão

Você recuperou 10 resultados: 5 imagens, 3 passagens de texto, 2 clipes de áudio. Como você mescla?

Fusão de pontuação (mais barata). Cada modalidade tem seu próprio recuperador, cada um retorna pontuações. Normalize as pontuações dentro da modalidade e depois some. Simples, geralmente funciona.

Fusão baseada em atenção. Concatene todos os itens recuperados, deixe uma pequena rede de atenção ponderá-los. Precisa de treinamento.

Fusão MoE. A rede de roteamento direciona para especialistas específicos de cada modalidade. Diferentes tipos de consulta são roteados de forma diferente — uma pergunta visual dá mais peso a imagens.

Padrão de produção: fusão de pontuação com um leve viés para a modalidade dominante da consulta. Atualize para MoE se os testes A/B mostrarem vitórias claras em seu domínio.

Aterramento de geração

O LLM deve citar qual item recuperado motivou cada afirmação. Para multimodal:

Fonte de texto: citação padrão [1].
Fonte de imagem: [img 3] com uma legenda curta.
Áudio: [audio 2 at 0:34].

Treine o gerador com dados conscientes de aterramento: cada afirmação no alvo de treinamento é marcada com o índice da fonte. Na inferência, o modelo emite citações naturalmente.

As pesquisas de 2025

Abootorabi et al. (arXiv:2502.08826, "Ask in Any Modality"): taxonomia para RAG multimodal. Cobre recuperação, fusão, geração. Cobertura mais ampla.

Mei et al. (arXiv:2504.08748, "A Survey of Multimodal RAG"): foca em benchmarks de subtarefas e modos de falha. Útil para design de avaliação.

Zhao et al. (arXiv:2503.18016): pesquisa focada em visão. Forte em trabalhos da família ColPali.

Ler as três dá a você o estado da arte na primavera de 2025. A maioria dos subproblemas ainda está em aberto.

MuRAG — o artigo fundamental

MuRAG (Chen et al., 2022) foi o primeiro RAG multimodal. Recuperava imagem + texto de uma base de conhecimento multimodal, gerava respostas. Mostrou viabilidade antes da onda dos VLMs. Sistemas modernos (REACT, VisRAG, M3DocRAG) baseiam-se nele.

Um exemplo prático de planejador de viagens

Consulta: "encontre-me um brunch vegano silencioso com luz natural."

Pipeline:

Decompor a consulta. "silencioso" → palavra-chave de áudio/avaliação; "brunch vegano" → item do menu; "luz natural" → recurso de imagem.
Recuperar por modalidade:
- Recuperação de texto em avaliações: "brunch vegano, ambiente silencioso."
- Recuperação de imagem em fotos de restaurantes: "luz natural, arejado."
- Recuperação de áudio em clipes de som ambiente: "baixo decibel, sem música."
Fundir pontuações. Cada restaurante tem uma pontuação composta.
Top-k restaurantes → gerador VLM com todas as evidências → resposta com citações.

Isso vai muito além do RAG de texto. Cada modalidade adiciona sinal que o texto sozinho perde.

RAG multimodal de agentes

Multi-hop: se a primeira recuperação não retornar respostas de alta confiança, o LLM reformula e recupera novamente. Padrões de RAG de agentes da Fase 14 se aplicam aqui. Exemplos:

Recuperar os 10 principais iniciais → LLM pergunta "muito barulhento, filtrar por <40 dB" → recuperar novamente.
Recuperar imagens → LLM vê que uma tem um menu → recuperar o texto do menu → responder.

Adiciona complexidade, mas lida com consultas que a recuperação de etapa única não consegue.

Avaliação

A avaliação cross-modal ainda é imatura. Proxies comuns:

Recall@k por modalidade.
Acurácia top-k combinada.
Satisfação de ponta a ponta avaliada por humanos.
Específico da tarefa (reservas concluídas, compras feitas).

Nenhum benchmark padrão abrange todas as modalidades. A maioria dos artigos avalia em tarefas específicas do domínio.

Use

code/main.py:

Três recuperadores simulados (texto, imagem, áudio) operando em um corpus compartilhado de restaurantes.
Fusão de pontuação que combina pontuações de modalidade com pesos configuráveis.
Um esboço de gerador que emite uma resposta final com citações.
Um loop de agente simples que reformula a consulta se a confiança for baixa.

Envie

Esta lição produz outputs/skill-multimodal-rag-designer.md. Dada uma especificação de produto com um fluxo de consulta multimodal, projeta recuperadores, fusão, gerador e avaliação.

Exercícios

Proponha um RAG multimodal de triagem médica: consulta = foto da lesão + sintomas em texto. Quais modalidades recuperam de qual base de conhecimento?
A fusão de pontuação é uma soma ponderada simples. Que modo de falha ela possui que a fusão MoE evita?
Leia a taxonomia de Abootorabi et al. (Seção 3). Quais são os três subproblemas canônicos e como eles se mapeiam para o produto escolhido por você?
Projete uma especificação de avaliação para um RAG multimodal de planejador de viagens. Quais métricas cobrem recall de imagem, recall de áudio e correção composta?
O RAG multi-hop de agentes tem um custo de latência por viagem de ida e volta. Em que nível de dificuldade da consulta o ganho de acurácia justifica a latência?

Termos-Chave

Term	What people say	What it actually means
Recuperação cross-modal	"Consultar uma modalidade, recuperar outra"	A consulta de texto recupera imagens; a consulta de imagem recupera texto; requer um espaço compartilhado ou tradutor
Fusão de pontuação	"Combinar pontuações"	Soma ponderada das pontuações de recuperação por modalidade; fusão mais simples
Fusão MoE	"Especialistas roteados por modalidade"	A rede de roteamento escolhe as pontuações de qual modalidade confiar por consulta
Geração aterrada	"Cite suas fontes"	Cada afirmação na resposta é marcada com o índice da fonte
MuRAG	"Primeiro RAG multimodal"	Artigo de 2022 que estabeleceu o padrão de RAG multimodal
Multi-hop de agentes	"Reformular e tentar novamente"	O LLM consulta novamente os recuperadores quando a confiança da primeira passagem é baixa