Phase 06 - Lesson 10

Modelos de Áudio-Linguagem — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

Os modelos de áudio-linguagem de 2026 raciocinam sobre fala + som ambiente + música. O Qwen2.5-Omni-7B iguala o GPT-4o Audio no MMAU-Pro. O Audio Flamingo Next supera o Gemini 2.5 Pro no LongAudioBench. A diferença entre aberto e fechado praticamente desapareceu, exceto em tarefas multi-áudio, onde todos estão perto do acaso.

Tipo: Aprender Linguagens: Python Pré-requisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visão-Linguagem), Fase 7 · 10 (Transformers de Áudio) Tempo: ~45 minutos

O Problema

Você tem 5 segundos de áudio: um cachorro late, alguém grita "pare!", e depois silêncio. Perguntas úteis abrangem múltiplos eixos:

  • Transcrição. "O que foi dito?" — território de ASR.
  • Raciocínio semântico. "A pessoa está em perigo?" — exige a compreensão conjunta do latido + grito + silêncio.
  • Raciocínio musical. "Quais instrumentos tocam a melodia?"
  • Recuperação de áudio longo. "Em que ponto desta aula de 90 minutos o instrutor explicou o gradiente descendente?"

Um único modelo que responde a todas essas perguntas com um só prompt é um modelo de áudio-linguagem (LALM / ALM). Distinto do ASR puro: os LALMs produzem respostas em linguagem natural de forma livre, não apenas transcrições.

O Conceito

Modelo de áudio-linguagem: codificador de áudio + projetor + decodificador LLM

O modelo de três componentes

Todo LALM de 2026 tem o mesmo esqueleto:

  1. Codificador de áudio. Codificador do Whisper · BEATs · CLAP · WavLM · ou um codificador personalizado por modelo.
  2. Projetor. Camada linear ou MLP que conecta as features do codificador de áudio ao espaço de embeddings de tokens do LLM.
  3. LLM. Decodificador baseado em Llama / Qwen / Gemma. Recebe tokens de texto + áudio intercalados; gera texto.

Treinamento:

  • Etapa 1. Congela o codificador + LLM; treina apenas o projetor com dados de ASR / legendagem.
  • Etapa 2. Fine-tune completo / LoRA em tarefas de áudio que seguem instruções (QA, raciocínio, compreensão musical).
  • Etapa 3 (opcional). Voz-de-entrada / voz-de-saída adiciona um decodificador de fala. O Qwen2.5-Omni e o AF3-Chat fazem isso.

O mapa de modelos de 2026

Modelo Backbone Codificador de áudio Modalidade de saída Acesso
Qwen2.5-Omni-7B Qwen2.5-7B Personalizado + Whisper texto + fala Apache-2.0
Qwen3-Omni Qwen3 Personalizado texto + fala Apache-2.0
Audio Flamingo 3 Qwen2 AF-CLAP texto Não comercial NVIDIA
Audio Flamingo Next Qwen2 AF-CLAP v2 texto Não comercial NVIDIA
SALMONN Vicuna Whisper + BEATs texto Apache-2.0
LTU / LTU-AS Llama CAV-MAE texto Apache-2.0
GAMA Llama AST + Q-Former texto Apache-2.0
Gemini 2.5 Flash/Pro (fechado) Gemini proprietário texto + fala API
GPT-4o Audio (fechado) GPT-4o proprietário texto + fala API

Verificação da realidade dos benchmarks (2026)

MMAU-Pro. 1800 pares de QA cobrindo fala / som / música / misto. Inclui um subconjunto multi-áudio.

Modelo Geral Fala Som Música Multi-áudio
Gemini 2.5 Pro ~60% 73,4% 51,9% 64,9% ~22%
Gemini 2.5 Flash ~57% 73,4% 50,5% 64,9% 21,2%
GPT-4o Audio 52,5% 26,5%
Qwen2.5-Omni-7B 52,2% 57,4% 47,6% 61,5% ~20%
Audio Flamingo 3 ~54%
Audio Flamingo Next SOTA no LongAudioBench

A coluna multi-áudio é condenatória para todos. O acaso em múltipla escolha de 4 opções = 25%; a maioria dos modelos pontua em torno disso. Os LALMs ainda têm dificuldade em comparar dois clipes.

Onde os LALMs são úteis em 2026

  • Auditoria de conformidade de gravações de call-center. "O agente mencionou a divulgação obrigatória?"
  • Acessibilidade. Descrever eventos sonoros para usuários surdos (não apenas transcrição).
  • Moderação de conteúdo. Detectar linguagem violenta + tom ameaçador + contexto de fundo.
  • Capitulação de podcasts / reuniões. Resumo semântico, não apenas turnos de quem fala.
  • Análise de catálogo musical. "Encontre todas as faixas com uma mudança de tom na seção B."

Onde eles AINDA NÃO são úteis

  • Teoria musical detalhada (abaixo do nível de acorde).
  • Raciocínio atribuído a locutores em conversas longas (degrada após 10 minutos).
  • Comparação multi-áudio (22-26% é pouco acima do acaso).
  • Raciocínio em streaming em tempo real (a maioria é inferência em lote offline).

Construa

Passo 1: consultar o Qwen2.5-Omni

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Passo 2: o padrão do projetor

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

É isso. O projetor costuma ter de 1 a 3 camadas lineares. Treiná-lo com pares de ASR (áudio → transcrição) é a tarefa-pretexto da Etapa 1.

Passo 3: benchmarking MMAU / LongAudioBench

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

Reporte cada categoria (fala / som / música / multi-áudio) separadamente. Números agregados escondem onde o modelo falha.

Use

Tarefa Escolha em 2026
QA de áudio de forma livre (aberto) Qwen2.5-Omni-7B
Melhor aberto em áudio longo Audio Flamingo Next
Melhor fechado Gemini 2.5 Pro
Agente voz-de-entrada / voz-de-saída Qwen2.5-Omni ou GPT-4o Audio
Raciocínio musical Audio Flamingo 3 ou 2 (AF-CLAP especializado em música)
Auditoria de call-center Gemini 2.5 Pro via API, com RAG sobre seus documentos de política

Armadilhas

  • Confiança excessiva em multi-áudio. Se a sua tarefa precisa de "qual clipe tem X", o desempenho ao nível do acaso é real.
  • Degradação em áudio longo. Após 10 minutos, a atribuição de locutores da maioria dos modelos se quebra. Faça diarização primeiro (Lição 6), depois resuma.
  • Alucinações no silêncio. O mesmo problema ao estilo Whisper herdado pelos LALMs que usam o codificador do Whisper. Aplique VAD-gate.
  • Cherry-picking de benchmarks. Posts de blog de fornecedores destacam as categorias de melhor caso. Rode você mesmo o subconjunto multi-áudio do MMAU-Pro.

Entregue

Salve como outputs/skill-alm-picker.md. Escolha o LALM + subconjunto de benchmark + modalidade de saída (texto vs fala) para uma dada tarefa de compreensão de áudio.

Exercícios

  1. Fácil. Rode code/main.py para ver um padrão de projetor de brinquedo + roteamento de LALM falso de (embedding de áudio, tokens de texto) → tokens de saída.
  2. Médio. Pontue o Qwen2.5-Omni-7B em 100 itens de fala do MMAU-Pro. Compare com o número reportado no paper.
  3. Difícil. Construa uma baseline mínima de legendagem de áudio: codificador BEATs + projetor de 2 camadas + Llama-3.2-1B congelado. Faça fine-tune apenas no projetor com o AudioCaps. Compare com o SALMONN no Clotho-AQA.

Termos-chave

Termo O que as pessoas dizem O que realmente significa
LALM ChatGPT de áudio Codificador de áudio + projetor + decodificador LLM.
Projetor Adaptador Pequeno MLP que mapeia features de áudio para o espaço de embeddings do LLM.
MMAU O benchmark 10k pares de áudio-QA entre fala, som e música.
MMAU-Pro MMAU mais difícil 1800 perguntas multi-áudio / com forte carga de raciocínio.
LongAudioBench Avaliação de forma longa Clipes de vários minutos com consultas semânticas.
Voz-de-entrada / voz-de-saída Nativo em fala O modelo ingere fala e emite fala sem desvio pelo texto.

Leitura Adicional

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).