Phase 12 - Lesson 19

Modelos de Lenguaje de Audio: El Arco de Whisper a Audio Flamingo 3

Whisper (Radford et al., diciembre de 2022) consolidó el reconocimiento de voz: 680,000 horas de voz multilingüe débilmente supervisada, un transformador codificador-decodificador simple, un benchmark que hizo que cada lanzamiento posterior de ASR lo citara. Pero el reconocimiento no es razonamiento. Preguntar "qué instrumentos hay en esta grabación" o "qué emoción expresa el hablante" o "qué pasó en el minuto 3" requiere comprensión de audio, no transcripción. Qwen-Audio, SALMONN, LTU y Audio Flamingo 3 de NVIDIA (AF3, julio de 2025) construyeron progresivamente esa pila: mantener codificadores de la clase Whisper, acoplar Q-formers, entrenar con datos de instrucción de audio-texto, agregar razonamiento de cadena de pensamiento. Esta lección recorre ese arco.

Tipo: Build Lenguajes: Python (biblioteca estándar, espectrograma log-Mel + esqueleto de Q-former de audio) Prerrequisitos: Fase 6 (Speech and Audio), Fase 12 · 03 (Q-Former) Tiempo: ~180 minutos

Objetivos de Aprendizaje

Computar un espectrograma log-Mel a partir de una forma de onda: ventanas (windowing), FFT, bancos de filtros, transformada logarítmica.
Comparar opciones de codificador: codificador Whisper, BEATs, híbrido AF-Whisper. Cuándo gana cada uno.
Construir un Q-former de áudio: N consultas (queries) aprendibles que realizan atención cruzada (cross-attending) sobre parches de espectrograma.
Explicar el entrenamiento en cascada (Whisper-luego-LLM) vs. audio-LLM de extremo a extremo (end-to-end): por que el enfoque de extremo a extremo escala mejor para el razonamiento.

El Problema

El reconocimiento de voz fue resuelto por Whisper. El OCR de audio es una mercancía (commodity). Pero lo "commodity" se limita a la transcripción. Si el modelo no puede razonar sobre lo que escuchó (tiempos, hablantes, emoción, estructura musical, sonidos ambientales), la transcripción por sí sola no puede impulsar las características del producto.

Tres rutas obvias:

Cascada: Whisper transcribe, el LLM razona sobre la transcripción. Funciona para escenarios de voz pura. Falla para la música, el audio ambiental, la superposición de múltiples hablantes y la emoción.
Audio-LLM de extremo a extremo (end-to-end): un codificador de audio alimenta los tokens de audio directamente a un LLM, omitiendo la transcripción. Preserva la información acústica (emoción, hablante, entorno). Requiere nuevos datos de entrenamiento.
Híbrido: codificador de audio + decodificador de texto que puede transcribir y razonar. Qwen-Audio y Audio Flamingo eligen esta ruta.

El Concepto

Espectrograma log-Mel: la característica de entrada

Cada codificador de audio comienza con la misma característica: un espectrograma log-Mel.

Re-muestrear a 16 kHz.
Transformada de Fourier de tiempo corto (STFT) con ventanas de 25 ms y un salto (hop) de 10 ms.
Tomar la magnitud del resultado de la FFT.
Aplicar bancos de filtros Mel (normalmente 80 filtros espaciados logarítmicamente entre 0 y 8000 Hz) para transformar a la frecuencia perceptual.
Compresión logarítmica (log(1 + x)) para el rango dinámico.

Resultado: un arreglo 2D con forma (T, 80) donde T es el número de fotogramas (frames) de tiempo. Para un clip de 30 segundos a una tasa de fotogramas de 100 Hz: (3000, 80).

El codificador de Whisper

El codificador de Whisper es un transformador estilo ViT de 12 capas que procesa el espectrograma log-Mel como una secuencia de fotogramas de tiempo. Salida: un vector de estado oculto (hidden-state) por fotograma de tiempo.

Para ASR, el decodificador de Whisper es un transformador de atención cruzada (cross-attention) que genera tokens de texto condicionados a la salida del codificador. Codificador-decodificador estándar.

Para ALM (audio-LLM), se desea la salida del codificador como entrada para un LLM diferente. El patrón: codificador de Whisper congelado (frozen), Q-former entrenable, LLM congelado o ajustado (tuned).

BEATs y codificadores específicos para audio

Whisper fue entrenado con datos predominantemente de voz. Es más débil para la música y el audio ambiental.

BEATs (Chen et al., 2022) es un transformador auto-supervisado entrenado en AudioSet. Captura música y sonidos ambientales mejor que Whisper con la misma cantidad de parámetros.

AF-Whisper (el híbrido de Audio Flamingo 3): concatena las características de Whisper + BEATs como entrada de audio. Whisper transporta la señal lingüística, BEATs transporta la señal acústica.

Q-former de audio

El mismo patrón que el Q-former visual de BLIP-2. Un número fijo de consultas (queries) aprendibles (a menudo 32 o 64) realiza atención cruzada sobre los fotogramas de salida del codificador de audio. Las consultas se convierten en tokens de audio consumidos por el LLM.

Etapa de alineación de entrenamiento: solo el Q-former, pérdidas de contraste (contrastive) y subtitulado (captioning) en pares de audio-texto (AudioCaps, Clotho). Etapa de instrucción: de extremo a extremo, descongelar el LLM, entrenar con datos de instrucción.

El arco: SALMONN, Qwen-Audio, AF3

SALMONN (Tang et al., 2023): Whisper + BEATs + Q-former + LLaMA. El primer audio-LLM abierto con capacidad seria de razonamiento. Las pruebas de rendimiento (benchmarks) en MMAU muestran un compuesto de ~0.55.

Qwen-Audio (Chu et al., 2023): arquitectura similar, entrenado en un conjunto de datos más rico, ajustado para diálogos de múltiples turnos. MMAU ~0.60.

LTU — Listen, Think, Understand (Gong et al., 2023): datos de razonamiento explícito, enfoque en cadena de pensamiento sobre clips de audio. Más pequeño pero más enfocado.

Audio Flamingo 3 (Goel et al., julio de 2025): el SOTA abierto actual. Columna vertebral (backbone) de LLM de 8B (Qwen2 7B), codificador Whisper-large concatenado con BEATs, Q-former de 64 consultas, entrenamiento en más de 1 millón de pares de instrucción de audio-texto. MMAU 0.72, iguala a la frontera propietaria en algunas subtareas.

AF3 también introduce una cadena de pensamiento bajo demanda para audio: el modelo puede emitir opcionalmente tokens de pensamiento ("deja que identifique los instrumentos primero: ...") antes de la respuesta final. La precisión en tareas de razonamiento complejas aumenta de 3 a 5 puntos cuando el pensamiento está activado.

Cascada vs. extremo a extremo

Pipeline en cascada:

Whisper transcribe el audio → texto.
El LLM razona sobre el texto.

Funciona perfectamente para "resumir este podcast". Falla para:

"¿Cuál es el estado de ánimo de esta canción?" — el estado de ánimo está en el sonido, no en las palabras.
"¿Quién está hablando, Alice o Bob?" — requiere identificación del hablante.
"¿En qué segundo ocurre la explosión?" — la referencia temporal se pierde en el texto.
"¿Es este audio real o generado?" — la detección de deepfakes necesita características acústicas.

El enfoque de extremo a extremo preserva la señal acústica. Qwen-Audio y AF3 manejan música, entorno y emociones de forma nativa.

Receta de producción para 2026

Para un nuevo producto de comprensión de audio:

Cascada si: el objetivo es la transcripción, sin música, sin inferencia de emociones.
AF3 / familia Qwen-Audio si: música, emociones, múltiples hablantes o razonamiento de audio complejo.

Cascada es de menor costo y simple. Extremo a extremo es más capaz.

MMAU: el benchmark de razonamiento de audio

MMAU (Massive Multimodal Audio Understanding) es el benchmark de razonamiento de audio de 2024-2025:

10,000 pares de preguntas y respuestas de audio-texto en voz, música y sonidos ambientales.
Cubre clasificación, razonamiento temporal, razonamiento causal y preguntas y respuestas de respuesta abierta.
Evalúa lo que los pipelines en cascada pasan por alto sistemáticamente.

SOTA abierto (AF3) en 0.72; frontera propietaria ~0.78 (Gemini 2.5 Pro, Claude Opus 4.7). La brecha es menor que la diferencia de VideoMME entre modelos abiertos y cerrados, lo que indica que los audio-LLM están madurando.

Úsalo

code/main.py:

Implementa el cálculo del espectrograma log-Mel en la biblioteca estándar (stdlib): ventanas, DFT simple, banco de filtros Mel.
Esqueleto de Q-former de audio: dados los fotogramas de salida del codificador, calcula Q, K, V, atención y emite N tokens.
Comparación de cascada vs. extremo a extremo en una tarea sencilla (toy task).

Envía

Esta lección produce outputs/skill-audio-llm-pipeline-picker.md. Dada una tarea de audio (transcripción, etiquetado de música, inferencia de emociones, diarización de múltiples hablantes, clasificación de entorno), elige cascada, AF3 de extremo a extremo o un híbrido.

Ejercicios

Calcula la dimensión del espectrograma log-Mel para un clip de 30 segundos a 16 kHz, ventana de 25 ms, salto de 10 ms y 80 contenedores (bins) Mel. ¿Cómo cambia esto a 48 kHz?
¿Por qué Whisper tiene un rendimiento inferior en la música? ¿Qué características de audio captura BEATs que Whisper no?
Q-former de audio con 64 consultas vs. 32: ¿en qué nivel de complejidad de tarea vale la pena usar 64? ¿Para qué ahorra cómputo usar 32?
Lee la sección 4 de AF3 sobre pensamiento bajo demanda. Propón tres tareas de audio en las que la cadena de pensamiento sea de mayor ayuda.
Implementa un pipeline de diarización mínimo utilizando la salida de AF3. ¿Cómo señalas los cambios de hablante?

Términos Clave

Término	Lo que la gente dice	Lo que realmente significa
Espectrograma log-Mel	"Características Mel"	Arreglo 2D (tiempo, frecuencia) de valores de log-magnitud después de los bancos de filtros Mel
Q-former de audio	"Audio Perceiver"	Cuello de botella de atención cruzada desde la salida del codificador de audio hacia consultas de longitud fija que alimentan al LLM
En cascada	"ASR-luego-LLM"	Pipeline en el que Whisper transcribe y un LLM de texto razona; pierde información acústica
De extremo a extremo	"Audio-LLM"	Las características de audio ingresan al LLM directamente a través del Q-former; conserva la señal acústica
BEATs	"Codificador AudioSet de audio"	Transformador SSL entrenado en AudioSet; fuerte en música + sonidos ambientales
MMAU	"Banco de razonamiento de audio"	10,000 pares de preguntas y respuestas en voz, música y entorno; estándar de evaluación de 2024
Pensamiento bajo demanda	"CoT de audio"	El modelo puede emitir opcionalmente tokens de razonamiento antes de la respuesta final, lo que aumenta la precisión entre 3 y 5 puntos