Phase 12 - Lesson 21

VLAs incorporados: RT-2, OpenVLA, π0, GR00T

La primera vez que un modelo leyó una receta de un sitio web y la ejecutó en un robot de cocina fue RT-2 (Google DeepMind, julio de 2023). RT-2 discretizó las acciones como tokens de texto, realizó un ajuste fino conjunto (co-fine-tuning) de un VLM en datos de la web y datos de acciones de robots, y demostró que el conocimiento de visión y lenguaje a escala de la web se transfiere al control robótico. OpenVLA (junio de 2024) entregó la referencia abierta de 7B. La serie π0 de Physical Intelligence (2024-2025) añadió expertos en acción basados en flow-matching. GR00T N1 de NVIDIA (marzo de 2025) ofreció un control de sistema dual (Sistema 1 / Sistema 2) para robótica humanoide a escala. La primitiva VLA (visión-lenguaje-acción, un solo modelo que ve, lee y actúa) es el puente entre los modelos de comprensión de esta fase y los sistemas autónomos de la Fase 15.

Tipo: Learn Lenguajes: Python (stdlib, tokenizador de acciones + esqueleto de inferencia VLA) Prerrequisitos: Fase 12 · 05 (LLaVA), Fase 15 (Sistemas Autónomos, referenciado) Tiempo: ~180 minutos

Objetivos de Aprendizaje

Describir la tokenización de acciones: codificación de compartimentos discretos (discrete bin encoding - RT-2), tokens de acción eficientes FAST y acciones continuas por flow-matching (π0).
Explicar por qué el co-fine-tuning en datos de la web + robot preserva la transferencia de conocimiento general hacia tareas nuevas.
Comparar OpenVLA (Llama+VLM abierto de 7B), π0 (flow-matching) y GR00T N1 (sistema dual) en la misma tarea robótica.
Nombrar el conjunto de datos Open X-Embodiment y su rol como el corpus de entrenamiento de RT-X.

El Problema

Un robot que realiza tareas del hogar a partir de instrucciones en lenguaje natural ha sido un objetivo de investigación desde la década de 1970. La respuesta de la década de 2020: un modelo de visión-lenguaje-acción (VLA). La misma arquitectura VLM utilizada para VQA, pero la salida son acciones (torques de articulación, poses del efector final, comandos discretos) en lugar de texto.

Desafíos específicos de los VLAs:

Los espacios de acción son continuos (ángulos de articulación, fuerzas) y de alta dimensión (brazo de 7-DOF + pinza de 3-DOF = 10 dimensiones a 30 Hz).
Los datos de entrenamiento específicos para robótica son escasos. Open X-Embodiment tiene ~1M de trayectorias; texto-imagen de la web tiene más de 5B.
La frecuencia de control importa. Un bucle de control de 30 Hz significa un presupuesto de 33ms por acción.
Seguridad. Una acción incorrecta daña el hardware, a los humanos o la propiedad.

El Concepto

Tokenización de acciones (RT-2)

El truco de RT-2: representar cada objetivo de articulación como un token de texto cuantizado. Discretizar el rango normalizado [-1, 1] en 256 compartimentos (bins), mapeando cada compartimento a un ID de vocabulario. Una acción de 10-DOF se convierte en 10 tokens en cada paso de control.

Realizar un ajuste fino conjunto (co-fine-tuning) de un PaLM-X VLM en una mezcla de:

Pares de imagen-texto de la web (descripciones, VQA).
Demostraciones de robots, acciones como tokens.

El modelo ve "pick up the red cube" (lenguaje) → imagen (visión) → secuencia de acciones de 10 tokens (objetivos de articulación discretizados). El preentrenamiento en la web preserva la transferencia de conocimiento general: RT-2 puede seguir "move towards the fast-moving object" aunque "fast-moving" no esté en los datos de entrenamiento.

Inferencia a 3-5 Hz en el artículo de RT-2, limitada por la decodificación autorregresiva del VLM.

OpenVLA: la referencia abierta de 7B

OpenVLA (Kim et al., junio de 2024) es el equivalente de pesos abiertos de RT-2. Backbone Llama de 7B, codificador de visión dual DINOv2 + SigLIP, tokenización de acciones en 256 compartimentos.

Entrenado en Open X-Embodiment (970k trayectorias en 22 robots). Incluye soporte para ajuste fino con LoRA para adaptarse a nuevos robots.

Inferencia: 4-5 Hz en una GPU A100 con cuantización. Suficientemente rápido para manipulación lenta, no para control de alta frecuencia.

Tokenizador FAST: decodificación de acciones más rápida

Pertsch et al. (2024) demostraron que la tokenización por compartimentos discretos es ineficiente: la mayoría de las acciones se agrupan en una región pequeña del espacio de compartimentos. FAST (Frequency-domain Action Sequence Tokenizer) comprime secuencias de acciones mediante DCT y cuantiza los coeficientes.

Una trayectoria de acción de 30 pasos se convierte en ~10 tokens FAST en lugar de 300 tokens de compartimentos discretos. La inferencia se acelera de 3 a 5 veces sin pérdida de calidad.

π0 y acciones de flow-matching

π0 de Physical Intelligence (Black et al., octubre de 2024) reemplaza los tokens de acción discretos con un experto en acción por flow-matching:

Un pequeño transformer de acción lee los estados ocultos del VLM y genera una secuencia de acción continua de 50 pasos a través de flujo rectificado.
El cabezal de acción se entrena con pérdida por correspondencia de flujo (flow-matching loss); el preentrenamiento del VLM permanece sin cambios.
Inferencia: secuencia de acción completa emitida en ~5 pasos de eliminación de ruido (denoising), efectivamente un control de 50 Hz.

La afirmación de π0: supera a OpenVLA y Octo en un amplio conjunto de tareas de manipulación. La formulación de acción continua preserva la suavidad que la discretización destruye.

π0.5 y π0-FAST son actualizaciones incrementales. π0-FAST combina tokenización FAST con correspondencia de flujo.

GR00T N1: sistema dual para humanoides

GR00T N1 de NVIDIA (marzo de 2025) está diseñado para robots humanoides (>30 DOF, cuerpo completo):

Sistema 2: un VLM grande que lee la escena + instrucción, generando subobjetivos de alto nivel a ~1 Hz.
Sistema 1: un pequeño transformer de cabezal de ação que genera comandos de articulación de bajo nivel a 50-100 Hz condicionados a los subobjetivos.

La división se mapea con el pensamiento rápido y lento de Kahneman: el Sistema 2 planifica, el Sistema 1 actúa. Beneficios: el planeamiento lento del tamaño de un VLM no bloquea el control rápido; el Sistema 1 permanece pequeño para la latencia.

GR00T N1.7 (finales de 2025) mejora la escala de datos. GR00T realiza el ajuste fino con datos de simulación a realidad (sim-to-real) de Omniverse.

Open X-Embodiment

Los datos de entrenamiento. RT-X (octubre de 2023) reunió 22 conjuntos de datos que cubren 1M de trayectorias en 22 robots. Open X-Embodiment es el corpus que todos usan:

ALOHA / Bridge V2 / Droid / RT-2 Kitchen / Language Table.
Cada muestra: (estado del robot, vistas de cámara, instrucción, secuencia de acciones).
Higiene del entrenamiento: unificar el espacio de acciones, normalizar los rangos de articulación, redimensionar las cámaras.

OpenVLA y π0 entrenan en Open X-Embodiment. La brecha de dominio con cualquier robot específico se cierra mediante ajuste fino con LoRA en 100-1000 demostraciones específicas de la tarea.

Co-fine-tuning frente a solo robot

El co-fine-tuning mezcla datos de VQA de la web con trayectorias de robots. La proporción importa: demasiado VQA y el modelo olvida las acciones; demasiados datos de robot y el modelo pierde conocimiento general.

Proporción de RT-2: ~1:1. OpenVLA: ~0.5:1 web a robot. π0: similar. La proporción exacta es un hiperparámetro que se debe ajustar según el tamaño del conjunto de datos.

El entrenamiento exclusivo en robótica produce modelos específicos para la tarea que fallan con instrucciones fuera de distribución. El co-fine-tuning es la diferencia entre "pick up the red cube (en la demostración)" y "pick up the third largest object from the left (frase inédita)".

Seguridad y límites de acción

Cada VLA de producción incluye:

Límites rígidos de articulación (no se puede aplicar un torque superior al especificado).
Límites de velocidad (recorte suave).
Límites del espacio de trabajo (el efector final no puede salir de la mesa).
Aprobación con humano en el bucle (human-in-the-loop) para tareas nuevas.

Estos se ubican fuera del VLA como comprobaciones de la capa de control. La salida del VLA es una sugerencia, no un comando.

Use It

code/main.py:

Implementa tokenización y de-tokenización de acciones en 256 compartimentos.
Esboza un tokenizador FAST basado en DCT + cuantización.
Compara la cantidad de tokens por paso de acción entre (compartimento discreto, FAST, flujo continuo).
Imprime un resumen del linaje de RT-2 → OpenVLA → π0 → GR00T.

Ship It

Esta lección produce outputs/skill-vla-action-format-picker.md. Dada una tarea robótica (manipulación, navegación, cuerpo completo humanoide), selecciona entre compartimento discreto + RT-2, FAST + OpenVLA, flow-matching + π0 o sistema dual + GR00T.

Ejercicios

Un brazo de 10-DOF a una tasa de control de 30 Hz. ¿Cuántos tokens por segundo emite la tokenización de compartimento discreto a 256 compartimentos? ¿Puede un VLM de 7B seguir el ritmo?
La tokenización FAST comprime trayectorias de 30 pasos a ~10 tokens. ¿Qué pierde el usuario si la trayectoria tiene movimientos de alta frecuencia (por ejemplo, tocar la batería)?
El cabezal de flow-matching de π0 elimina el ruido en ~5 pasos. Compara el rendimiento con la decodificación autorregresiva de OpenVLA a 4-5 Hz.
La división Sistema 1 / Sistema 2 de GR00T se mapea con Kahneman. Propón una división diferente (¿Sistema 3?) que podría ayudar a la marcha bípeda.
Lee la Sección 4 de Open X-Embodiment sobre la curaduría del conjunto de datos. Nombra las tres reglas de curaduría que evitan la fuga de dominio.

Key Terms

Término	Lo que la gente dice	Lo que realmente significa
VLA	"Visión-lenguaje-acción"	Modelo que recibe imagen + instrucción y emite comandos de acción
Action tokenization	"Compartimentos discretos"	Cuantizar objetivos de articulación continuos en 256 compartimentos por dimensión, cada uno como un ID de vocabulario
FAST tokenizer	"Tokens de acción de frecuencia"	DCT + cuantización para comprimir trayectorias de 30 pasos a ~10 tokens
Co-fine-tune	"Mezclar web + robot"	Entrenar con datos de VQA de la web junto con demostraciones de robots para preservar el conocimiento general
Flow-matching action head	"Salida continua de π0"	Pequeño transformer que emite una secuencia de acción de 50 pasos a través de flujo rectificado
System 1 / System 2	"Control de sistema dual"	VLM grande planifica lentamente, cabezal de acción pequeño actúa rápidamente; patrón de GR00T
Open X-Embodiment	"Conjunto de datos RT-X"	Conjunto de datos multirrobot de 1M de trayectorias; el corpus de entrenamiento