Phase 06 - Lesson 10
Modelos de Audio-Lenguaje — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio
Los modelos de audio-lenguaje de 2026 razonan sobre habla + sonido ambiental + música. Qwen2.5-Omni-7B iguala a GPT-4o Audio en MMAU-Pro. Audio Flamingo Next supera a Gemini 2.5 Pro en LongAudioBench. La brecha entre lo abierto y lo cerrado prácticamente desapareció, salvo en tareas multi-audio, donde todos están cerca del azar.
Tipo: Aprender Lenguajes: Python Prerrequisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visión-Lenguaje), Fase 7 · 10 (Transformers de Audio) Tiempo: ~45 minutos
El Problema
Tienes 5 segundos de audio: un perro ladra, alguien grita "¡detente!", y luego silencio. Las preguntas útiles abarcan múltiples ejes:
- Transcripción. "¿Qué se dijo?" — terreno del ASR.
- Razonamiento semántico. "¿La persona está en peligro?" — requiere la comprensión conjunta del ladrido + grito + silencio.
- Razonamiento musical. "¿Qué instrumentos tocan la melodía?"
- Recuperación de audio largo. "¿En qué parte de esta clase de 90 minutos el instructor explicó el descenso de gradiente?"
Un único modelo que responde a todas estas preguntas con un solo prompt es un modelo de audio-lenguaje (LALM / ALM). Distinto del ASR puro: los LALMs producen respuestas en lenguaje natural de forma libre, no solo transcripciones.
El Concepto
La plantilla de tres componentes
Todo LALM de 2026 tiene el mismo esqueleto:
- Codificador de audio. Codificador de Whisper · BEATs · CLAP · WavLM · o un codificador personalizado por modelo.
- Proyector. Capa lineal o MLP que conecta las características del codificador de audio con el espacio de embeddings de tokens del LLM.
- LLM. Decodificador basado en Llama / Qwen / Gemma. Recibe tokens de texto + audio intercalados; genera texto.
Entrenamiento:
- Etapa 1. Congela el codificador + LLM; entrena solo el proyector con datos de ASR / subtitulado.
- Etapa 2. Fine-tune completo / LoRA en tareas de audio que siguen instrucciones (QA, razonamiento, comprensión musical).
- Etapa 3 (opcional). Voz-de-entrada / voz-de-salida agrega un decodificador de habla. Qwen2.5-Omni y AF3-Chat lo hacen.
El mapa de modelos de 2026
| Modelo | Backbone | Codificador de audio | Modalidad de salida | Acceso |
|---|---|---|---|---|
| Qwen2.5-Omni-7B | Qwen2.5-7B | Personalizado + Whisper | texto + habla | Apache-2.0 |
| Qwen3-Omni | Qwen3 | Personalizado | texto + habla | Apache-2.0 |
| Audio Flamingo 3 | Qwen2 | AF-CLAP | texto | No comercial NVIDIA |
| Audio Flamingo Next | Qwen2 | AF-CLAP v2 | texto | No comercial NVIDIA |
| SALMONN | Vicuna | Whisper + BEATs | texto | Apache-2.0 |
| LTU / LTU-AS | Llama | CAV-MAE | texto | Apache-2.0 |
| GAMA | Llama | AST + Q-Former | texto | Apache-2.0 |
| Gemini 2.5 Flash/Pro (cerrado) | Gemini | propietario | texto + habla | API |
| GPT-4o Audio (cerrado) | GPT-4o | propietario | texto + habla | API |
Verificación de la realidad de los benchmarks (2026)
MMAU-Pro. 1800 pares de QA que cubren habla / sonido / música / mixto. Incluye un subconjunto multi-audio.
| Modelo | General | Habla | Sonido | Música | Multi-audio |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | ~60% | 73,4% | 51,9% | 64,9% | ~22% |
| Gemini 2.5 Flash | ~57% | 73,4% | 50,5% | 64,9% | 21,2% |
| GPT-4o Audio | 52,5% | — | — | — | 26,5% |
| Qwen2.5-Omni-7B | 52,2% | 57,4% | 47,6% | 61,5% | ~20% |
| Audio Flamingo 3 | ~54% | — | — | — | — |
| Audio Flamingo Next | SOTA en LongAudioBench | — | — | — | — |
La columna multi-audio es lapidaria para todos. El azar en opción múltiple de 4 opciones = 25%; la mayoría de los modelos puntúa alrededor de eso. Los LALMs aún tienen dificultades para comparar dos clips.
Dónde son útiles los LALMs en 2026
- Auditoría de cumplimiento de grabaciones de call-center. "¿El agente mencionó la divulgación obligatoria?"
- Accesibilidad. Describir eventos sonoros a usuarios sordos (no solo transcripción).
- Moderación de contenido. Detectar lenguaje violento + tono amenazante + contexto de fondo.
- Capitulación de podcasts / reuniones. Resumen semántico, no solo turnos de quien habla.
- Análisis de catálogo musical. "Encuentra todas las pistas con un cambio de tonalidad en la sección B."
Dónde TODAVÍA NO son útiles
- Teoría musical de grano fino (por debajo del nivel de acorde).
- Razonamiento atribuido a hablantes en conversaciones largas (se degrada después de 10 minutos).
- Comparación multi-audio (22-26% es apenas por encima del azar).
- Razonamiento en streaming en tiempo real (la mayoría es inferencia por lotes offline).
Constrúyelo
Paso 1: consultar Qwen2.5-Omni
from transformers import AutoModelForCausalLM, AutoProcessor
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")
audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
"role": "user",
"content": [
{"type": "audio", "audio": audio},
{"type": "text", "text": "What sounds do you hear, and what's happening?"},
],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))
Paso 2: el patrón del proyector
import torch.nn as nn
class AudioProjector(nn.Module):
def __init__(self, audio_dim=1280, llm_dim=4096):
super().__init__()
self.down = nn.Linear(audio_dim, llm_dim)
self.act = nn.GELU()
self.up = nn.Linear(llm_dim, llm_dim)
def forward(self, audio_features):
return self.up(self.act(self.down(audio_features)))
Eso es todo. El proyector suele tener de 1 a 3 capas lineales. Entrenarlo con pares de ASR (audio → transcripción) es la tarea-pretexto de la Etapa 1.
Paso 3: benchmarking MMAU / LongAudioBench
from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")
correct = 0
for item in mmau["test"]:
answer = call_model(item["audio"], item["question"], item["choices"])
if answer == item["correct_choice"]:
correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")
Reporta cada categoría (habla / sonido / música / multi-audio) por separado. Los números agregados ocultan dónde falla el modelo.
Úsalo
| Tarea | Elección en 2026 |
|---|---|
| QA de audio de forma libre (abierto) | Qwen2.5-Omni-7B |
| Mejor abierto en audio largo | Audio Flamingo Next |
| Mejor cerrado | Gemini 2.5 Pro |
| Agente voz-de-entrada / voz-de-salida | Qwen2.5-Omni o GPT-4o Audio |
| Razonamiento musical | Audio Flamingo 3 o 2 (AF-CLAP especializado en música) |
| Auditoría de call-center | Gemini 2.5 Pro vía API, con RAG sobre tus documentos de política |
Errores comunes
- Exceso de confianza en multi-audio. Si tu tarea necesita "qué clip tiene X", el rendimiento a nivel de azar es real.
- Degradación en audio largo. Después de 10 minutos, la atribución de hablantes de la mayoría de los modelos se rompe. Haz diarización primero (Lección 6), luego resume.
- Alucinaciones en el silencio. El mismo problema al estilo Whisper heredado por los LALMs que usan el codificador de Whisper. Aplica VAD-gate.
- Cherry-picking de benchmarks. Las entradas de blog de los proveedores destacan las categorías de mejor caso. Ejecuta tú mismo el subconjunto multi-audio de MMAU-Pro.
Entrégalo
Guarda como outputs/skill-alm-picker.md. Elige el LALM + subconjunto de benchmark + modalidad de salida (texto vs habla) para una tarea de comprensión de audio dada.
Ejercicios
- Fácil. Ejecuta
code/main.pypara ver un patrón de proyector de juguete + enrutamiento de LALM falso de (embedding de audio, tokens de texto) → tokens de salida. - Medio. Puntúa Qwen2.5-Omni-7B en 100 ítems de habla de MMAU-Pro. Compara con el número reportado en el paper.
- Difícil. Construye una baseline mínima de subtitulado de audio: codificador BEATs + proyector de 2 capas + Llama-3.2-1B congelado. Haz fine-tune solo en el proyector con AudioCaps. Compara con SALMONN en Clotho-AQA.
Términos clave
| Término | Lo que la gente dice | Lo que realmente significa |
|---|---|---|
| LALM | ChatGPT de audio | Codificador de audio + proyector + decodificador LLM. |
| Proyector | Adaptador | Pequeño MLP que mapea características de audio al espacio de embeddings del LLM. |
| MMAU | El benchmark | 10k pares de audio-QA entre habla, sonido y música. |
| MMAU-Pro | MMAU más difícil | 1800 preguntas multi-audio / con fuerte carga de razonamiento. |
| LongAudioBench | Evaluación de forma larga | Clips de varios minutos con consultas semánticas. |
| Voz-de-entrada / voz-de-salida | Nativo en habla | El modelo ingiere habla y emite habla sin desvío por el texto. |
Lecturas Adicionales
- Chu et al. (2024). Qwen2-Audio — arquitectura de referencia.
- Alibaba (2025). Qwen2.5-Omni — habla-de-entrada-habla-de-salida.
- NVIDIA (2025). Audio Flamingo 3 — el líder abierto en audio largo.
- NVIDIA (2026). Audio Flamingo Next — SOTA en LongAudioBench.
- Tang et al. (2023). SALMONN — pionero de codificador dual.
- Leaderboard de MMAU-Pro — rankings en vivo de 2026.