Phase 06 - Lesson 10
Modelos de Áudio-Linguagem — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio
Os modelos de áudio-linguagem de 2026 raciocinam sobre fala + som ambiente + música. O Qwen2.5-Omni-7B iguala o GPT-4o Audio no MMAU-Pro. O Audio Flamingo Next supera o Gemini 2.5 Pro no LongAudioBench. A diferença entre aberto e fechado praticamente desapareceu, exceto em tarefas multi-áudio, onde todos estão perto do acaso.
Tipo: Aprender Linguagens: Python Pré-requisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visão-Linguagem), Fase 7 · 10 (Transformers de Áudio) Tempo: ~45 minutos
O Problema
Você tem 5 segundos de áudio: um cachorro late, alguém grita "pare!", e depois silêncio. Perguntas úteis abrangem múltiplos eixos:
- Transcrição. "O que foi dito?" — território de ASR.
- Raciocínio semântico. "A pessoa está em perigo?" — exige a compreensão conjunta do latido + grito + silêncio.
- Raciocínio musical. "Quais instrumentos tocam a melodia?"
- Recuperação de áudio longo. "Em que ponto desta aula de 90 minutos o instrutor explicou o gradiente descendente?"
Um único modelo que responde a todas essas perguntas com um só prompt é um modelo de áudio-linguagem (LALM / ALM). Distinto do ASR puro: os LALMs produzem respostas em linguagem natural de forma livre, não apenas transcrições.
O Conceito
O modelo de três componentes
Todo LALM de 2026 tem o mesmo esqueleto:
- Codificador de áudio. Codificador do Whisper · BEATs · CLAP · WavLM · ou um codificador personalizado por modelo.
- Projetor. Camada linear ou MLP que conecta as features do codificador de áudio ao espaço de embeddings de tokens do LLM.
- LLM. Decodificador baseado em Llama / Qwen / Gemma. Recebe tokens de texto + áudio intercalados; gera texto.
Treinamento:
- Etapa 1. Congela o codificador + LLM; treina apenas o projetor com dados de ASR / legendagem.
- Etapa 2. Fine-tune completo / LoRA em tarefas de áudio que seguem instruções (QA, raciocínio, compreensão musical).
- Etapa 3 (opcional). Voz-de-entrada / voz-de-saída adiciona um decodificador de fala. O Qwen2.5-Omni e o AF3-Chat fazem isso.
O mapa de modelos de 2026
| Modelo | Backbone | Codificador de áudio | Modalidade de saída | Acesso |
|---|---|---|---|---|
| Qwen2.5-Omni-7B | Qwen2.5-7B | Personalizado + Whisper | texto + fala | Apache-2.0 |
| Qwen3-Omni | Qwen3 | Personalizado | texto + fala | Apache-2.0 |
| Audio Flamingo 3 | Qwen2 | AF-CLAP | texto | Não comercial NVIDIA |
| Audio Flamingo Next | Qwen2 | AF-CLAP v2 | texto | Não comercial NVIDIA |
| SALMONN | Vicuna | Whisper + BEATs | texto | Apache-2.0 |
| LTU / LTU-AS | Llama | CAV-MAE | texto | Apache-2.0 |
| GAMA | Llama | AST + Q-Former | texto | Apache-2.0 |
| Gemini 2.5 Flash/Pro (fechado) | Gemini | proprietário | texto + fala | API |
| GPT-4o Audio (fechado) | GPT-4o | proprietário | texto + fala | API |
Verificação da realidade dos benchmarks (2026)
MMAU-Pro. 1800 pares de QA cobrindo fala / som / música / misto. Inclui um subconjunto multi-áudio.
| Modelo | Geral | Fala | Som | Música | Multi-áudio |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | ~60% | 73,4% | 51,9% | 64,9% | ~22% |
| Gemini 2.5 Flash | ~57% | 73,4% | 50,5% | 64,9% | 21,2% |
| GPT-4o Audio | 52,5% | — | — | — | 26,5% |
| Qwen2.5-Omni-7B | 52,2% | 57,4% | 47,6% | 61,5% | ~20% |
| Audio Flamingo 3 | ~54% | — | — | — | — |
| Audio Flamingo Next | SOTA no LongAudioBench | — | — | — | — |
A coluna multi-áudio é condenatória para todos. O acaso em múltipla escolha de 4 opções = 25%; a maioria dos modelos pontua em torno disso. Os LALMs ainda têm dificuldade em comparar dois clipes.
Onde os LALMs são úteis em 2026
- Auditoria de conformidade de gravações de call-center. "O agente mencionou a divulgação obrigatória?"
- Acessibilidade. Descrever eventos sonoros para usuários surdos (não apenas transcrição).
- Moderação de conteúdo. Detectar linguagem violenta + tom ameaçador + contexto de fundo.
- Capitulação de podcasts / reuniões. Resumo semântico, não apenas turnos de quem fala.
- Análise de catálogo musical. "Encontre todas as faixas com uma mudança de tom na seção B."
Onde eles AINDA NÃO são úteis
- Teoria musical detalhada (abaixo do nível de acorde).
- Raciocínio atribuído a locutores em conversas longas (degrada após 10 minutos).
- Comparação multi-áudio (22-26% é pouco acima do acaso).
- Raciocínio em streaming em tempo real (a maioria é inferência em lote offline).
Construa
Passo 1: consultar o Qwen2.5-Omni
from transformers import AutoModelForCausalLM, AutoProcessor
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")
audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
"role": "user",
"content": [
{"type": "audio", "audio": audio},
{"type": "text", "text": "What sounds do you hear, and what's happening?"},
],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))
Passo 2: o padrão do projetor
import torch.nn as nn
class AudioProjector(nn.Module):
def __init__(self, audio_dim=1280, llm_dim=4096):
super().__init__()
self.down = nn.Linear(audio_dim, llm_dim)
self.act = nn.GELU()
self.up = nn.Linear(llm_dim, llm_dim)
def forward(self, audio_features):
return self.up(self.act(self.down(audio_features)))
É isso. O projetor costuma ter de 1 a 3 camadas lineares. Treiná-lo com pares de ASR (áudio → transcrição) é a tarefa-pretexto da Etapa 1.
Passo 3: benchmarking MMAU / LongAudioBench
from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")
correct = 0
for item in mmau["test"]:
answer = call_model(item["audio"], item["question"], item["choices"])
if answer == item["correct_choice"]:
correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")
Reporte cada categoria (fala / som / música / multi-áudio) separadamente. Números agregados escondem onde o modelo falha.
Use
| Tarefa | Escolha em 2026 |
|---|---|
| QA de áudio de forma livre (aberto) | Qwen2.5-Omni-7B |
| Melhor aberto em áudio longo | Audio Flamingo Next |
| Melhor fechado | Gemini 2.5 Pro |
| Agente voz-de-entrada / voz-de-saída | Qwen2.5-Omni ou GPT-4o Audio |
| Raciocínio musical | Audio Flamingo 3 ou 2 (AF-CLAP especializado em música) |
| Auditoria de call-center | Gemini 2.5 Pro via API, com RAG sobre seus documentos de política |
Armadilhas
- Confiança excessiva em multi-áudio. Se a sua tarefa precisa de "qual clipe tem X", o desempenho ao nível do acaso é real.
- Degradação em áudio longo. Após 10 minutos, a atribuição de locutores da maioria dos modelos se quebra. Faça diarização primeiro (Lição 6), depois resuma.
- Alucinações no silêncio. O mesmo problema ao estilo Whisper herdado pelos LALMs que usam o codificador do Whisper. Aplique VAD-gate.
- Cherry-picking de benchmarks. Posts de blog de fornecedores destacam as categorias de melhor caso. Rode você mesmo o subconjunto multi-áudio do MMAU-Pro.
Entregue
Salve como outputs/skill-alm-picker.md. Escolha o LALM + subconjunto de benchmark + modalidade de saída (texto vs fala) para uma dada tarefa de compreensão de áudio.
Exercícios
- Fácil. Rode
code/main.pypara ver um padrão de projetor de brinquedo + roteamento de LALM falso de (embedding de áudio, tokens de texto) → tokens de saída. - Médio. Pontue o Qwen2.5-Omni-7B em 100 itens de fala do MMAU-Pro. Compare com o número reportado no paper.
- Difícil. Construa uma baseline mínima de legendagem de áudio: codificador BEATs + projetor de 2 camadas + Llama-3.2-1B congelado. Faça fine-tune apenas no projetor com o AudioCaps. Compare com o SALMONN no Clotho-AQA.
Termos-chave
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| LALM | ChatGPT de áudio | Codificador de áudio + projetor + decodificador LLM. |
| Projetor | Adaptador | Pequeno MLP que mapeia features de áudio para o espaço de embeddings do LLM. |
| MMAU | O benchmark | 10k pares de áudio-QA entre fala, som e música. |
| MMAU-Pro | MMAU mais difícil | 1800 perguntas multi-áudio / com forte carga de raciocínio. |
| LongAudioBench | Avaliação de forma longa | Clipes de vários minutos com consultas semânticas. |
| Voz-de-entrada / voz-de-saída | Nativo em fala | O modelo ingere fala e emite fala sem desvio pelo texto. |
Leitura Adicional
- Chu et al. (2024). Qwen2-Audio — arquitetura de referência.
- Alibaba (2025). Qwen2.5-Omni — fala-de-entrada-fala-de-saída.
- NVIDIA (2025). Audio Flamingo 3 — o líder aberto em áudio longo.
- NVIDIA (2026). Audio Flamingo Next — SOTA no LongAudioBench.
- Tang et al. (2023). SALMONN — pioneiro de codificador duplo.
- Leaderboard do MMAU-Pro — rankings ao vivo de 2026.