Phase 06 - Lesson 10

Modelos de Áudio-Linguagem — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

Os modelos de áudio-linguagem de 2026 raciocinam sobre fala + som ambiente + música. O Qwen2.5-Omni-7B iguala o GPT-4o Audio no MMAU-Pro. O Audio Flamingo Next supera o Gemini 2.5 Pro no LongAudioBench. A diferença entre aberto e fechado praticamente desapareceu, exceto em tarefas multi-áudio, onde todos estão perto do acaso.

Tipo: Aprender Linguagens: Python Pré-requisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visão-Linguagem), Fase 7 · 10 (Transformers de Áudio) Tempo: ~45 minutos

O Problema

Você tem 5 segundos de áudio: um cachorro late, alguém grita "pare!", e depois silêncio. Perguntas úteis abrangem múltiplos eixos:

Transcrição. "O que foi dito?" — território de ASR.
Raciocínio semântico. "A pessoa está em perigo?" — exige a compreensão conjunta do latido + grito + silêncio.
Raciocínio musical. "Quais instrumentos tocam a melodia?"
Recuperação de áudio longo. "Em que ponto desta aula de 90 minutos o instrutor explicou o gradiente descendente?"

Um único modelo que responde a todas essas perguntas com um só prompt é um modelo de áudio-linguagem (LALM / ALM). Distinto do ASR puro: os LALMs produzem respostas em linguagem natural de forma livre, não apenas transcrições.

O Conceito

Modelo de áudio-linguagem: codificador de áudio + projetor + decodificador LLM

O modelo de três componentes

Todo LALM de 2026 tem o mesmo esqueleto:

Codificador de áudio. Codificador do Whisper · BEATs · CLAP · WavLM · ou um codificador personalizado por modelo.
Projetor. Camada linear ou MLP que conecta as features do codificador de áudio ao espaço de embeddings de tokens do LLM.
LLM. Decodificador baseado em Llama / Qwen / Gemma. Recebe tokens de texto + áudio intercalados; gera texto.

Treinamento:

Etapa 1. Congela o codificador + LLM; treina apenas o projetor com dados de ASR / legendagem.
Etapa 2. Fine-tune completo / LoRA em tarefas de áudio que seguem instruções (QA, raciocínio, compreensão musical).
Etapa 3 (opcional). Voz-de-entrada / voz-de-saída adiciona um decodificador de fala. O Qwen2.5-Omni e o AF3-Chat fazem isso.

O mapa de modelos de 2026

Modelo	Backbone	Codificador de áudio	Modalidade de saída	Acesso
Qwen2.5-Omni-7B	Qwen2.5-7B	Personalizado + Whisper	texto + fala	Apache-2.0
Qwen3-Omni	Qwen3	Personalizado	texto + fala	Apache-2.0
Audio Flamingo 3	Qwen2	AF-CLAP	texto	Não comercial NVIDIA
Audio Flamingo Next	Qwen2	AF-CLAP v2	texto	Não comercial NVIDIA
SALMONN	Vicuna	Whisper + BEATs	texto	Apache-2.0
LTU / LTU-AS	Llama	CAV-MAE	texto	Apache-2.0
GAMA	Llama	AST + Q-Former	texto	Apache-2.0
Gemini 2.5 Flash/Pro (fechado)	Gemini	proprietário	texto + fala	API
GPT-4o Audio (fechado)	GPT-4o	proprietário	texto + fala	API

Verificação da realidade dos benchmarks (2026)

MMAU-Pro. 1800 pares de QA cobrindo fala / som / música / misto. Inclui um subconjunto multi-áudio.

Modelo	Geral	Fala	Som	Música	Multi-áudio
Gemini 2.5 Pro	~60%	73,4%	51,9%	64,9%	~22%
Gemini 2.5 Flash	~57%	73,4%	50,5%	64,9%	21,2%
GPT-4o Audio	52,5%	—	—	—	26,5%
Qwen2.5-Omni-7B	52,2%	57,4%	47,6%	61,5%	~20%
Audio Flamingo 3	~54%	—	—	—	—
Audio Flamingo Next	SOTA no LongAudioBench	—	—	—	—

A coluna multi-áudio é condenatória para todos. O acaso em múltipla escolha de 4 opções = 25%; a maioria dos modelos pontua em torno disso. Os LALMs ainda têm dificuldade em comparar dois clipes.

Onde os LALMs são úteis em 2026

Auditoria de conformidade de gravações de call-center. "O agente mencionou a divulgação obrigatória?"
Acessibilidade. Descrever eventos sonoros para usuários surdos (não apenas transcrição).
Moderação de conteúdo. Detectar linguagem violenta + tom ameaçador + contexto de fundo.
Capitulação de podcasts / reuniões. Resumo semântico, não apenas turnos de quem fala.
Análise de catálogo musical. "Encontre todas as faixas com uma mudança de tom na seção B."

Onde eles AINDA NÃO são úteis

Teoria musical detalhada (abaixo do nível de acorde).
Raciocínio atribuído a locutores em conversas longas (degrada após 10 minutos).
Comparação multi-áudio (22-26% é pouco acima do acaso).
Raciocínio em streaming em tempo real (a maioria é inferência em lote offline).

Construa

Passo 1: consultar o Qwen2.5-Omni

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Passo 2: o padrão do projetor

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

É isso. O projetor costuma ter de 1 a 3 camadas lineares. Treiná-lo com pares de ASR (áudio → transcrição) é a tarefa-pretexto da Etapa 1.

Passo 3: benchmarking MMAU / LongAudioBench

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

Reporte cada categoria (fala / som / música / multi-áudio) separadamente. Números agregados escondem onde o modelo falha.

Use

Tarefa	Escolha em 2026
QA de áudio de forma livre (aberto)	Qwen2.5-Omni-7B
Melhor aberto em áudio longo	Audio Flamingo Next
Melhor fechado	Gemini 2.5 Pro
Agente voz-de-entrada / voz-de-saída	Qwen2.5-Omni ou GPT-4o Audio
Raciocínio musical	Audio Flamingo 3 ou 2 (AF-CLAP especializado em música)
Auditoria de call-center	Gemini 2.5 Pro via API, com RAG sobre seus documentos de política

Armadilhas

Confiança excessiva em multi-áudio. Se a sua tarefa precisa de "qual clipe tem X", o desempenho ao nível do acaso é real.
Degradação em áudio longo. Após 10 minutos, a atribuição de locutores da maioria dos modelos se quebra. Faça diarização primeiro (Lição 6), depois resuma.
Alucinações no silêncio. O mesmo problema ao estilo Whisper herdado pelos LALMs que usam o codificador do Whisper. Aplique VAD-gate.
Cherry-picking de benchmarks. Posts de blog de fornecedores destacam as categorias de melhor caso. Rode você mesmo o subconjunto multi-áudio do MMAU-Pro.

Entregue

Salve como outputs/skill-alm-picker.md. Escolha o LALM + subconjunto de benchmark + modalidade de saída (texto vs fala) para uma dada tarefa de compreensão de áudio.

Exercícios

Fácil. Rode code/main.py para ver um padrão de projetor de brinquedo + roteamento de LALM falso de (embedding de áudio, tokens de texto) → tokens de saída.
Médio. Pontue o Qwen2.5-Omni-7B em 100 itens de fala do MMAU-Pro. Compare com o número reportado no paper.
Difícil. Construa uma baseline mínima de legendagem de áudio: codificador BEATs + projetor de 2 camadas + Llama-3.2-1B congelado. Faça fine-tune apenas no projetor com o AudioCaps. Compare com o SALMONN no Clotho-AQA.

Termos-chave

Termo	O que as pessoas dizem	O que realmente significa
LALM	ChatGPT de áudio	Codificador de áudio + projetor + decodificador LLM.
Projetor	Adaptador	Pequeno MLP que mapeia features de áudio para o espaço de embeddings do LLM.
MMAU	O benchmark	10k pares de áudio-QA entre fala, som e música.
MMAU-Pro	MMAU mais difícil	1800 perguntas multi-áudio / com forte carga de raciocínio.
LongAudioBench	Avaliação de forma longa	Clipes de vários minutos com consultas semânticas.
Voz-de-entrada / voz-de-saída	Nativo em fala	O modelo ingere fala e emite fala sem desvio pelo texto.

Leitura Adicional

Chu et al. (2024). Qwen2-Audio — arquitetura de referência.
Alibaba (2025). Qwen2.5-Omni — fala-de-entrada-fala-de-saída.
NVIDIA (2025). Audio Flamingo 3 — o líder aberto em áudio longo.
NVIDIA (2026). Audio Flamingo Next — SOTA no LongAudioBench.
Tang et al. (2023). SALMONN — pioneiro de codificador duplo.
Leaderboard do MMAU-Pro — rankings ao vivo de 2026.