Phase 06 - Lesson 10

Modelos de Audio-Lenguaje — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

Los modelos de audio-lenguaje de 2026 razonan sobre habla + sonido ambiental + música. Qwen2.5-Omni-7B iguala a GPT-4o Audio en MMAU-Pro. Audio Flamingo Next supera a Gemini 2.5 Pro en LongAudioBench. La brecha entre lo abierto y lo cerrado prácticamente desapareció, salvo en tareas multi-audio, donde todos están cerca del azar.

Tipo: Aprender Lenguajes: Python Prerrequisitos: Fase 6 · 04 (ASR), Fase 12 · 03 (Modelos de Visión-Lenguaje), Fase 7 · 10 (Transformers de Audio) Tiempo: ~45 minutos

El Problema

Tienes 5 segundos de audio: un perro ladra, alguien grita "¡detente!", y luego silencio. Las preguntas útiles abarcan múltiples ejes:

  • Transcripción. "¿Qué se dijo?" — terreno del ASR.
  • Razonamiento semántico. "¿La persona está en peligro?" — requiere la comprensión conjunta del ladrido + grito + silencio.
  • Razonamiento musical. "¿Qué instrumentos tocan la melodía?"
  • Recuperación de audio largo. "¿En qué parte de esta clase de 90 minutos el instructor explicó el descenso de gradiente?"

Un único modelo que responde a todas estas preguntas con un solo prompt es un modelo de audio-lenguaje (LALM / ALM). Distinto del ASR puro: los LALMs producen respuestas en lenguaje natural de forma libre, no solo transcripciones.

El Concepto

Modelo de audio-lenguaje: codificador de audio + proyector + decodificador LLM

La plantilla de tres componentes

Todo LALM de 2026 tiene el mismo esqueleto:

  1. Codificador de audio. Codificador de Whisper · BEATs · CLAP · WavLM · o un codificador personalizado por modelo.
  2. Proyector. Capa lineal o MLP que conecta las características del codificador de audio con el espacio de embeddings de tokens del LLM.
  3. LLM. Decodificador basado en Llama / Qwen / Gemma. Recibe tokens de texto + audio intercalados; genera texto.

Entrenamiento:

  • Etapa 1. Congela el codificador + LLM; entrena solo el proyector con datos de ASR / subtitulado.
  • Etapa 2. Fine-tune completo / LoRA en tareas de audio que siguen instrucciones (QA, razonamiento, comprensión musical).
  • Etapa 3 (opcional). Voz-de-entrada / voz-de-salida agrega un decodificador de habla. Qwen2.5-Omni y AF3-Chat lo hacen.

El mapa de modelos de 2026

Modelo Backbone Codificador de audio Modalidad de salida Acceso
Qwen2.5-Omni-7B Qwen2.5-7B Personalizado + Whisper texto + habla Apache-2.0
Qwen3-Omni Qwen3 Personalizado texto + habla Apache-2.0
Audio Flamingo 3 Qwen2 AF-CLAP texto No comercial NVIDIA
Audio Flamingo Next Qwen2 AF-CLAP v2 texto No comercial NVIDIA
SALMONN Vicuna Whisper + BEATs texto Apache-2.0
LTU / LTU-AS Llama CAV-MAE texto Apache-2.0
GAMA Llama AST + Q-Former texto Apache-2.0
Gemini 2.5 Flash/Pro (cerrado) Gemini propietario texto + habla API
GPT-4o Audio (cerrado) GPT-4o propietario texto + habla API

Verificación de la realidad de los benchmarks (2026)

MMAU-Pro. 1800 pares de QA que cubren habla / sonido / música / mixto. Incluye un subconjunto multi-audio.

Modelo General Habla Sonido Música Multi-audio
Gemini 2.5 Pro ~60% 73,4% 51,9% 64,9% ~22%
Gemini 2.5 Flash ~57% 73,4% 50,5% 64,9% 21,2%
GPT-4o Audio 52,5% 26,5%
Qwen2.5-Omni-7B 52,2% 57,4% 47,6% 61,5% ~20%
Audio Flamingo 3 ~54%
Audio Flamingo Next SOTA en LongAudioBench

La columna multi-audio es lapidaria para todos. El azar en opción múltiple de 4 opciones = 25%; la mayoría de los modelos puntúa alrededor de eso. Los LALMs aún tienen dificultades para comparar dos clips.

Dónde son útiles los LALMs en 2026

  • Auditoría de cumplimiento de grabaciones de call-center. "¿El agente mencionó la divulgación obligatoria?"
  • Accesibilidad. Describir eventos sonoros a usuarios sordos (no solo transcripción).
  • Moderación de contenido. Detectar lenguaje violento + tono amenazante + contexto de fondo.
  • Capitulación de podcasts / reuniones. Resumen semántico, no solo turnos de quien habla.
  • Análisis de catálogo musical. "Encuentra todas las pistas con un cambio de tonalidad en la sección B."

Dónde TODAVÍA NO son útiles

  • Teoría musical de grano fino (por debajo del nivel de acorde).
  • Razonamiento atribuido a hablantes en conversaciones largas (se degrada después de 10 minutos).
  • Comparación multi-audio (22-26% es apenas por encima del azar).
  • Razonamiento en streaming en tiempo real (la mayoría es inferencia por lotes offline).

Constrúyelo

Paso 1: consultar Qwen2.5-Omni

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Paso 2: el patrón del proyector

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

Eso es todo. El proyector suele tener de 1 a 3 capas lineales. Entrenarlo con pares de ASR (audio → transcripción) es la tarea-pretexto de la Etapa 1.

Paso 3: benchmarking MMAU / LongAudioBench

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

Reporta cada categoría (habla / sonido / música / multi-audio) por separado. Los números agregados ocultan dónde falla el modelo.

Úsalo

Tarea Elección en 2026
QA de audio de forma libre (abierto) Qwen2.5-Omni-7B
Mejor abierto en audio largo Audio Flamingo Next
Mejor cerrado Gemini 2.5 Pro
Agente voz-de-entrada / voz-de-salida Qwen2.5-Omni o GPT-4o Audio
Razonamiento musical Audio Flamingo 3 o 2 (AF-CLAP especializado en música)
Auditoría de call-center Gemini 2.5 Pro vía API, con RAG sobre tus documentos de política

Errores comunes

  • Exceso de confianza en multi-audio. Si tu tarea necesita "qué clip tiene X", el rendimiento a nivel de azar es real.
  • Degradación en audio largo. Después de 10 minutos, la atribución de hablantes de la mayoría de los modelos se rompe. Haz diarización primero (Lección 6), luego resume.
  • Alucinaciones en el silencio. El mismo problema al estilo Whisper heredado por los LALMs que usan el codificador de Whisper. Aplica VAD-gate.
  • Cherry-picking de benchmarks. Las entradas de blog de los proveedores destacan las categorías de mejor caso. Ejecuta tú mismo el subconjunto multi-audio de MMAU-Pro.

Entrégalo

Guarda como outputs/skill-alm-picker.md. Elige el LALM + subconjunto de benchmark + modalidad de salida (texto vs habla) para una tarea de comprensión de audio dada.

Ejercicios

  1. Fácil. Ejecuta code/main.py para ver un patrón de proyector de juguete + enrutamiento de LALM falso de (embedding de audio, tokens de texto) → tokens de salida.
  2. Medio. Puntúa Qwen2.5-Omni-7B en 100 ítems de habla de MMAU-Pro. Compara con el número reportado en el paper.
  3. Difícil. Construye una baseline mínima de subtitulado de audio: codificador BEATs + proyector de 2 capas + Llama-3.2-1B congelado. Haz fine-tune solo en el proyector con AudioCaps. Compara con SALMONN en Clotho-AQA.

Términos clave

Término Lo que la gente dice Lo que realmente significa
LALM ChatGPT de audio Codificador de audio + proyector + decodificador LLM.
Proyector Adaptador Pequeño MLP que mapea características de audio al espacio de embeddings del LLM.
MMAU El benchmark 10k pares de audio-QA entre habla, sonido y música.
MMAU-Pro MMAU más difícil 1800 preguntas multi-audio / con fuerte carga de razonamiento.
LongAudioBench Evaluación de forma larga Clips de varios minutos con consultas semánticas.
Voz-de-entrada / voz-de-salida Nativo en habla El modelo ingiere habla y emite habla sin desvío por el texto.

Lecturas Adicionales

0 lifetime access. Curriculum based on AI Engineering from Scratch by Rohit Ghumare (MIT, used under attribution).