Phase 06 - Lesson 10

Modelos de Audio-Lenguaje — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

Los modelos de audio-lenguaje de 2026 razonan sobre habla + sonido ambiental + música. Qwen2.5-Omni-7B iguala a GPT-4o Audio en MMAU-Pro. Audio Flamingo Next supera a Gemini 2.5 Pro en LongAudioBench. La brecha entre lo abierto y lo cerrado prácticamente desapareció, salvo en tareas multi-audio, donde todos están cerca del azar.

Tipo: Aprender Lenguajes: Python Prerrequisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visión-Lenguaje), Fase 7 · 10 (Transformers de Audio) Tiempo: ~45 minutos

El Problema

Tienes 5 segundos de audio: un perro ladra, alguien grita "¡detente!", y luego silencio. Las preguntas útiles abarcan múltiples ejes:

Transcripción. "¿Qué se dijo?" — terreno del ASR.
Razonamiento semántico. "¿La persona está en peligro?" — requiere la comprensión conjunta del ladrido + grito + silencio.
Razonamiento musical. "¿Qué instrumentos tocan la melodía?"
Recuperación de audio largo. "¿En qué parte de esta clase de 90 minutos el instructor explicó el descenso de gradiente?"

Un único modelo que responde a todas estas preguntas con un solo prompt es un modelo de audio-lenguaje (LALM / ALM). Distinto del ASR puro: los LALMs producen respuestas en lenguaje natural de forma libre, no solo transcripciones.

El Concepto

Modelo de audio-lenguaje: codificador de audio + proyector + decodificador LLM

La plantilla de tres componentes

Todo LALM de 2026 tiene el mismo esqueleto:

Codificador de audio. Codificador de Whisper · BEATs · CLAP · WavLM · o un codificador personalizado por modelo.
Proyector. Capa lineal o MLP que conecta las características del codificador de audio con el espacio de embeddings de tokens del LLM.
LLM. Decodificador basado en Llama / Qwen / Gemma. Recibe tokens de texto + audio intercalados; genera texto.

Entrenamiento:

Etapa 1. Congela el codificador + LLM; entrena solo el proyector con datos de ASR / subtitulado.
Etapa 2. Fine-tune completo / LoRA en tareas de audio que siguen instrucciones (QA, razonamiento, comprensión musical).
Etapa 3 (opcional). Voz-de-entrada / voz-de-salida agrega un decodificador de habla. Qwen2.5-Omni y AF3-Chat lo hacen.

El mapa de modelos de 2026

Modelo	Backbone	Codificador de audio	Modalidad de salida	Acceso
Qwen2.5-Omni-7B	Qwen2.5-7B	Personalizado + Whisper	texto + habla	Apache-2.0
Qwen3-Omni	Qwen3	Personalizado	texto + habla	Apache-2.0
Audio Flamingo 3	Qwen2	AF-CLAP	texto	No comercial NVIDIA
Audio Flamingo Next	Qwen2	AF-CLAP v2	texto	No comercial NVIDIA
SALMONN	Vicuna	Whisper + BEATs	texto	Apache-2.0
LTU / LTU-AS	Llama	CAV-MAE	texto	Apache-2.0
GAMA	Llama	AST + Q-Former	texto	Apache-2.0
Gemini 2.5 Flash/Pro (cerrado)	Gemini	propietario	texto + habla	API
GPT-4o Audio (cerrado)	GPT-4o	propietario	texto + habla	API

Verificación de la realidad de los benchmarks (2026)

MMAU-Pro. 1800 pares de QA que cubren habla / sonido / música / mixto. Incluye un subconjunto multi-audio.

Modelo	General	Habla	Sonido	Música	Multi-audio
Gemini 2.5 Pro	~60%	73,4%	51,9%	64,9%	~22%
Gemini 2.5 Flash	~57%	73,4%	50,5%	64,9%	21,2%
GPT-4o Audio	52,5%	—	—	—	26,5%
Qwen2.5-Omni-7B	52,2%	57,4%	47,6%	61,5%	~20%
Audio Flamingo 3	~54%	—	—	—	—
Audio Flamingo Next	SOTA en LongAudioBench	—	—	—	—

La columna multi-audio es lapidaria para todos. El azar en opción múltiple de 4 opciones = 25%; la mayoría de los modelos puntúa alrededor de eso. Los LALMs aún tienen dificultades para comparar dos clips.

Dónde son útiles los LALMs en 2026

Auditoría de cumplimiento de grabaciones de call-center. "¿El agente mencionó la divulgación obligatoria?"
Accesibilidad. Describir eventos sonoros a usuarios sordos (no solo transcripción).
Moderación de contenido. Detectar lenguaje violento + tono amenazante + contexto de fondo.
Capitulación de podcasts / reuniones. Resumen semántico, no solo turnos de quien habla.
Análisis de catálogo musical. "Encuentra todas las pistas con un cambio de tonalidad en la sección B."

Dónde TODAVÍA NO son útiles

Teoría musical de grano fino (por debajo del nivel de acorde).
Razonamiento atribuido a hablantes en conversaciones largas (se degrada después de 10 minutos).
Comparación multi-audio (22-26% es apenas por encima del azar).
Razonamiento en streaming en tiempo real (la mayoría es inferencia por lotes offline).

Constrúyelo

Paso 1: consultar Qwen2.5-Omni

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Paso 2: el patrón del proyector

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

Eso es todo. El proyector suele tener de 1 a 3 capas lineales. Entrenarlo con pares de ASR (audio → transcripción) es la tarea-pretexto de la Etapa 1.

Paso 3: benchmarking MMAU / LongAudioBench

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

Reporta cada categoría (habla / sonido / música / multi-audio) por separado. Los números agregados ocultan dónde falla el modelo.

Úsalo

Tarea	Elección en 2026
QA de audio de forma libre (abierto)	Qwen2.5-Omni-7B
Mejor abierto en audio largo	Audio Flamingo Next
Mejor cerrado	Gemini 2.5 Pro
Agente voz-de-entrada / voz-de-salida	Qwen2.5-Omni o GPT-4o Audio
Razonamiento musical	Audio Flamingo 3 o 2 (AF-CLAP especializado en música)
Auditoría de call-center	Gemini 2.5 Pro vía API, con RAG sobre tus documentos de política

Errores comunes

Exceso de confianza en multi-audio. Si tu tarea necesita "qué clip tiene X", el rendimiento a nivel de azar es real.
Degradación en audio largo. Después de 10 minutos, la atribución de hablantes de la mayoría de los modelos se rompe. Haz diarización primero (Lección 6), luego resume.
Alucinaciones en el silencio. El mismo problema al estilo Whisper heredado por los LALMs que usan el codificador de Whisper. Aplica VAD-gate.
Cherry-picking de benchmarks. Las entradas de blog de los proveedores destacan las categorías de mejor caso. Ejecuta tú mismo el subconjunto multi-audio de MMAU-Pro.

Entrégalo

Guarda como outputs/skill-alm-picker.md. Elige el LALM + subconjunto de benchmark + modalidad de salida (texto vs habla) para una tarea de comprensión de audio dada.

Ejercicios

Fácil. Ejecuta code/main.py para ver un patrón de proyector de juguete + enrutamiento de LALM falso de (embedding de audio, tokens de texto) → tokens de salida.
Medio. Puntúa Qwen2.5-Omni-7B en 100 ítems de habla de MMAU-Pro. Compara con el número reportado en el paper.
Difícil. Construye una baseline mínima de subtitulado de audio: codificador BEATs + proyector de 2 capas + Llama-3.2-1B congelado. Haz fine-tune solo en el proyector con AudioCaps. Compara con SALMONN en Clotho-AQA.

Términos clave

Término	Lo que la gente dice	Lo que realmente significa
LALM	ChatGPT de audio	Codificador de audio + proyector + decodificador LLM.
Proyector	Adaptador	Pequeño MLP que mapea características de audio al espacio de embeddings del LLM.
MMAU	El benchmark	10k pares de audio-QA entre habla, sonido y música.
MMAU-Pro	MMAU más difícil	1800 preguntas multi-audio / con fuerte carga de razonamiento.
LongAudioBench	Evaluación de forma larga	Clips de varios minutos con consultas semánticas.
Voz-de-entrada / voz-de-salida	Nativo en habla	El modelo ingiere habla y emite habla sin desvío por el texto.

Lecturas Adicionales

Chu et al. (2024). Qwen2-Audio — arquitectura de referencia.
Alibaba (2025). Qwen2.5-Omni — habla-de-entrada-habla-de-salida.
NVIDIA (2025). Audio Flamingo 3 — el líder abierto en audio largo.
NVIDIA (2026). Audio Flamingo Next — SOTA en LongAudioBench.
Tang et al. (2023). SALMONN — pionero de codificador dual.
Leaderboard de MMAU-Pro — rankings en vivo de 2026.