Phase 12 - Lesson 24
RAG Multimodal e Recuperação Cross-Modal
This lesson includes a graded coding exercise that runs in your browser, unlocked with lifetime access.
O RAG de documentos nativo de visão é uma fatia. O RAG multimodal em produção vai além — recuperando entre texto, imagens, áudio e vídeo para fluxos de trabalho como planejamento de viagens ("encontre-me um brunch vegano silencioso com luz natural"), triagem médica ("qual lesão corresponde a esta foto + estas notas"), e-commerce ("roupas semelhantes a esta selfie, no meu tamanho") e serviço de campo ("diagnosticar este som de motor mais foto da peça"). Três pesquisas de 2025 — Abootorabi et al., Mei et al., Zhao et al. — codificaram os subproblemas: recuperação cross-modal, fusão de recuperação, aterramento de geração, avaliação multimodal. Esta lição lê as pesquisas e projeta um pipeline de produção.
Tipo: Construir Idiomas: Python (stdlib, recuperador cross-modal com fusão + gerador aterrado) Pré-requisitos: Phase 12 · 23 (ColPali), Phase 11 (conceitos básicos de RAG) Tempo: ~180 minutos
Objetivos de Aprendizagem
- Projetar recuperação cross-modal: texto → imagem, imagem → texto, áudio → vídeo, etc.
- Comparar três estratégias de fusão: fusão de pontuação (score fusion), fusão baseada em atenção, fusão MoE.
- Explicar o aterramento de geração: como é a aparência de "citar suas fontes" quando as fontes são uma mistura de modalidades.
- Nomear as três pesquisas canônicas de RAG multimodal de 2025 e sua taxonomia de subproblemas.
O Problema
O RAG de modalidade única é um padrão resolvido: incorporar consulta, incorporar fragmentos, recuperar, inserir no LLM. O RAG multimodal requer:
- Múltiplas cabeças de recuperação (cada modalidade precisa de embeddings em um espaço compatível).
- Fusão de resultados de recuperação entre modalidades.
- Aterramento de geração que cita fontes entre modalidades.
- Métricas de avaliação que cobrem o sinal cross-modal.
As pesquisas de 2025 chegam todas à mesma taxonomia.
O Conceito
Recuperação cross-modal
Recuperar documentos da modalidade B dada uma consulta da modalidade A. Três padrões:
Espaço de embedding compartilhado. CLIP e CLAP produzem embeddings de texto + imagem / texto + áudio em um espaço compartilhado. A similaridade de cosseno entre modalidades funciona diretamente. Limitado a pares treinados no CLIP.
Codificador por modalidade + tradução. Codificador de texto + codificador de imagem + um pequeno módulo tradutor que mapeia entre os espaços. Sen2Sen de Gupta et al. e outros designs de 2024. Flexível, mas adiciona complexidade.
VLM como codificador. Use os estados ocultos de um VLM como a representação de recuperação. Qualquer modalidade que o VLM suporte funciona. Maior qualidade, mais caro.
Escolha: CLIP / SigLIP 2 para texto+imagem; CLAP para texto+audio; estados ocultos de VLM para cross-modal em qualidade de fronteira.
Estratégias de fusão
Você recuperou 10 resultados: 5 imagens, 3 passagens de texto, 2 clipes de áudio. Como você mescla?
Fusão de pontuação (mais barata). Cada modalidade tem seu próprio recuperador, cada um retorna pontuações. Normalize as pontuações dentro da modalidade e depois some. Simples, geralmente funciona.
Fusão baseada em atenção. Concatene todos os itens recuperados, deixe uma pequena rede de atenção ponderá-los. Precisa de treinamento.
Fusão MoE. A rede de roteamento direciona para especialistas específicos de cada modalidade. Diferentes tipos de consulta são roteados de forma diferente — uma pergunta visual dá mais peso a imagens.
Padrão de produção: fusão de pontuação com um leve viés para a modalidade dominante da consulta. Atualize para MoE se os testes A/B mostrarem vitórias claras em seu domínio.
Aterramento de geração
O LLM deve citar qual item recuperado motivou cada afirmação. Para multimodal:
- Fonte de texto: citação padrão
[1]. - Fonte de imagem:
[img 3]com uma legenda curta. - Áudio:
[audio 2 at 0:34].
Treine o gerador com dados conscientes de aterramento: cada afirmação no alvo de treinamento é marcada com o índice da fonte. Na inferência, o modelo emite citações naturalmente.
As pesquisas de 2025
Abootorabi et al. (arXiv:2502.08826, "Ask in Any Modality"): taxonomia para RAG multimodal. Cobre recuperação, fusão, geração. Cobertura mais ampla.
Mei et al. (arXiv:2504.08748, "A Survey of Multimodal RAG"): foca em benchmarks de subtarefas e modos de falha. Útil para design de avaliação.
Zhao et al. (arXiv:2503.18016): pesquisa focada em visão. Forte em trabalhos da família ColPali.
Ler as três dá a você o estado da arte na primavera de 2025. A maioria dos subproblemas ainda está em aberto.
MuRAG — o artigo fundamental
MuRAG (Chen et al., 2022) foi o primeiro RAG multimodal. Recuperava imagem + texto de uma base de conhecimento multimodal, gerava respostas. Mostrou viabilidade antes da onda dos VLMs. Sistemas modernos (REACT, VisRAG, M3DocRAG) baseiam-se nele.
Um exemplo prático de planejador de viagens
Consulta: "encontre-me um brunch vegano silencioso com luz natural."
Pipeline:
- Decompor a consulta. "silencioso" → palavra-chave de áudio/avaliação; "brunch vegano" → item do menu; "luz natural" → recurso de imagem.
- Recuperar por modalidade:
- Recuperação de texto em avaliações: "brunch vegano, ambiente silencioso."
- Recuperação de imagem em fotos de restaurantes: "luz natural, arejado."
- Recuperação de áudio em clipes de som ambiente: "baixo decibel, sem música."
- Fundir pontuações. Cada restaurante tem uma pontuação composta.
- Top-k restaurantes → gerador VLM com todas as evidências → resposta com citações.
Isso vai muito além do RAG de texto. Cada modalidade adiciona sinal que o texto sozinho perde.
RAG multimodal de agentes
Multi-hop: se a primeira recuperação não retornar respostas de alta confiança, o LLM reformula e recupera novamente. Padrões de RAG de agentes da Fase 14 se aplicam aqui. Exemplos:
- Recuperar os 10 principais iniciais → LLM pergunta "muito barulhento, filtrar por <40 dB" → recuperar novamente.
- Recuperar imagens → LLM vê que uma tem um menu → recuperar o texto do menu → responder.
Adiciona complexidade, mas lida com consultas que a recuperação de etapa única não consegue.
Avaliação
A avaliação cross-modal ainda é imatura. Proxies comuns:
- Recall@k por modalidade.
- Acurácia top-k combinada.
- Satisfação de ponta a ponta avaliada por humanos.
- Específico da tarefa (reservas concluídas, compras feitas).
Nenhum benchmark padrão abrange todas as modalidades. A maioria dos artigos avalia em tarefas específicas do domínio.
Use
code/main.py:
- Três recuperadores simulados (texto, imagem, áudio) operando em um corpus compartilhado de restaurantes.
- Fusão de pontuação que combina pontuações de modalidade com pesos configuráveis.
- Um esboço de gerador que emite uma resposta final com citações.
- Um loop de agente simples que reformula a consulta se a confiança for baixa.
Envie
Esta lição produz outputs/skill-multimodal-rag-designer.md. Dada uma especificação de produto com um fluxo de consulta multimodal, projeta recuperadores, fusão, gerador e avaliação.
Exercícios
Proponha um RAG multimodal de triagem médica: consulta = foto da lesão + sintomas em texto. Quais modalidades recuperam de qual base de conhecimento?
A fusão de pontuação é uma soma ponderada simples. Que modo de falha ela possui que a fusão MoE evita?
Leia a taxonomia de Abootorabi et al. (Seção 3). Quais são os três subproblemas canônicos e como eles se mapeiam para o produto escolhido por você?
Projete uma especificação de avaliação para um RAG multimodal de planejador de viagens. Quais métricas cobrem recall de imagem, recall de áudio e correção composta?
O RAG multi-hop de agentes tem um custo de latência por viagem de ida e volta. Em que nível de dificuldade da consulta o ganho de acurácia justifica a latência?
Termos-Chave
| Term | What people say | What it actually means |
|---|---|---|
| Recuperação cross-modal | "Consultar uma modalidade, recuperar outra" | A consulta de texto recupera imagens; a consulta de imagem recupera texto; requer um espaço compartilhado ou tradutor |
| Fusão de pontuação | "Combinar pontuações" | Soma ponderada das pontuações de recuperação por modalidade; fusão mais simples |
| Fusão MoE | "Especialistas roteados por modalidade" | A rede de roteamento escolhe as pontuações de qual modalidade confiar por consulta |
| Geração aterrada | "Cite suas fontes" | Cada afirmação na resposta é marcada com o índice da fonte |
| MuRAG | "Primeiro RAG multimodal" | Artigo de 2022 que estabeleceu o padrão de RAG multimodal |
| Multi-hop de agentes | "Reformular e tentar novamente" | O LLM consulta novamente os recuperadores quando a confiança da primeira passagem é baixa |