Phase 12 - Lesson 21

VLAs Incorporados: RT-2, OpenVLA, π0, GR00T

A primeira vez que um modelo leu uma receita de um site e a executou em um robô de cozinha foi o RT-2 (Google DeepMind, julho de 2023). O RT-2 discretizou ações como tokens de texto, realizou o ajuste fino conjunto (co-fine-tuning) de um VLM em dados da web e em dados de ações de robôs, e provou que o conhecimento de visão e linguagem em escala de web é transferido para o controle robótico. O OpenVLA (junho de 2024) entregou a referência aberta de 7B. A série π0 da Physical Intelligence (2024-2025) adicionou especialistas de ação baseados em flow-matching. O GR00T N1 da NVIDIA (março de 2025) forneceu controle de sistema duplo (Sistema 1 / Sistema 2) para robôs humanoides em escala. A primitiva VLA — visão-linguagem-ação, um único modelo que vê, lê e age — é a ponte entre os modelos de compreensão desta fase e os sistemas autônomos na Fase 15.

Tipo: Learn Linguagens: Python (stdlib, tokenizador de ações + esqueleto de inferência VLA) Pré-requisitos: Phase 12 · 05 (LLaVA), Phase 15 (Sistemas Autônomos, referenciado) Tempo: ~180 minutos

Objetivos de Aprendizado

Descrever a tokenização de ações: codificação de compartimentos discretos (discrete bin encoding - RT-2), tokens de ação eficientes FAST e ações contínuas por flow-matching (π0).
Explicar por que o co-fine-tuning em dados da web + robô preserva a transferência de conhecimento geral para novas tarefas.
Comparar o OpenVLA (Llama+VLM aberto de 7B), π0 (flow-matching) e GR00T N1 (sistema duplo) na mesma tarefa robótica.
Nomear o conjunto de dados Open X-Embodiment e seu papel como o corpus de treinamento do RT-X.

O Problema

Um robô que realiza tarefas domésticas a partir de instruções em linguagem natural tem sido um objetivo de pesquisa desde a década de 1970. A resposta da década de 2020: um modelo de visão-linguagem-ação (VLA). A mesma arquitetura VLM usada para VQA, mas a saída são ações (torques de junta, poses do efetuador final, comandos discretos) em vez de texto.

Desafios específicos dos VLAs:

Os espaços de ação são contínuos (ângulos de junta, forças) e de alta dimensão (braço de 7-DOF + garra de 3-DOF = 10 dimensões a 30 Hz).
Dados de treinamento específicos para robôs são escassos. O Open X-Embodiment possui ~1M de trajetórias; texto-imagem da web tem mais de 5B.
A frequência de controle é importante. Um loop de controle de 30 Hz significa um orçamento de 33ms por ação.
Segurança. Uma ação errada danifica o hardware, humanos ou propriedade.

O Conceito

Tokenização de ações (RT-2)

O truque do RT-2: representar cada alvo de junta como um token de texto quantizado. Discretizar a faixa normalizada [-1, 1] em 256 compartimentos (bins), mapeando cada compartimento para um ID de vocabulário. Uma ação de 10-DOF torna-se 10 tokens a cada etapa de controle.

Realizar o co-fine-tuning de um VLM PaLM-X em uma mistura de:

Pares de imagem-texto da web (legendagem, VQA).
Demonstrações de robôs, ações como tokens.

O modelo vê "pick up the red cube" (linguagem) → imagem (visão) → sequência de ações de 10 tokens (alvos de junta discretizados). O pré-treinamento na web preserva a transferência de conhecimento geral: o RT-2 pode seguir "move towards the fast-moving object" mesmo que "fast-moving" não esteja nos dados de treinamento.

Inferência a 3-5 Hz no artigo do RT-2, limitada pela decodificação autorregresiva do VLM.

OpenVLA — a referência aberta de 7B

O OpenVLA (Kim et al., junho de 2024) é o equivalente de pesos abertos do RT-2. Backbone Llama de 7B, codificador de visão duplo DINOv2 + SigLIP, tokenização de ações em 256 compartimentos.

Treinado no Open X-Embodiment (970k trajetórias em 22 robôs). Acompanha suporte a fine-tuning com LoRA para adaptação a novos robôs.

Inferência: 4-5 Hz em uma GPU A100 com quantização. Rápido o suficiente para manipulação lenta, mas não para controle de alta frequência.

Tokenizador FAST — decodificação de ação mais rápida

Pertsch et al. (2024) mostraram que a tokenização por compartimentos discretos é ineficiente — a maioria das ações se concentra em uma pequena região do espaço de compartimentos. O FAST (Frequency-domain Action Sequence Tokenizer) comprime sequências de ações via DCT e quantiza os coeficientes.

Uma trajetória de ação de 30 etapas torna-se ~10 tokens FAST em vez de 300 tokens de compartimentos discretos. A inferência acelera de 3 a 5 vezes sem perda de qualidade.

π0 e ações de flow-matching

O π0 da Physical Intelligence (Black et al., outubro de 2024) substitui os tokens de ação discretos por um especialista de ação por flow-matching:

Um pequeno transformer de ação lê os estados ocultos do VLM e emite uma sequência de ação contínua de 50 etapas via fluxo retificado.
A cabeça de ação treina com perda por correspondência de fluxo (flow-matching loss); o pré-treinamento do VLM permanece inalterado.
Inferência: sequência completa de ações emitida em ~5 etapas de redução de ruído (denoising), efetivamente um controle de 50 Hz.

A alegação do π0: supera o OpenVLA e o Octo em um amplo conjunto de tarefas de manipulação. A formulação de ação contínua preserva a suavidade que a discretização destrói.

O π0.5 e o π0-FAST são atualizações incrementais. O π0-FAST combina tokenização FAST com correspondência de fluxo.

GR00T N1 — sistema duplo para humanoides

O GR00T N1 da NVIDIA (março de 2025) foi construído para robôs humanoides (>30 DOF, corpo inteiro):

Sistema 2: um VLM grande que lê a cena + instrução, produzindo submetas de alto nível a ~1 Hz.
Sistema 1: um pequeno transformer de cabeça de ação que produz comandos de junta de baixo nível de 50-100 Hz condicionados às submetas.

A divisão mapeia para o pensamento rápido e lento de Kahneman: o Sistema 2 planeja, o Sistema 1 age. Benefícios: o planejamento lento do tamanho de um VLM não bloqueia o controle rápido; o Sistema 1 permanece pequeno para garantir baixa latência.

O GR00T N1.7 (final de 2025) melhora o escalonamento de dados. O GR00T realiza o ajuste fino com dados de simulação para o mundo real (sim-to-real) do Omniverse.

Open X-Embodiment

Os dados de treinamento. O RT-X (outubro de 2023) reuniu 22 conjuntos de dados cobrindo 1M de trajetórias em 22 robôs. O Open X-Embodiment é o corpus que todos usam:

ALOHA / Bridge V2 / Droid / RT-2 Kitchen / Language Table.
Cada amostra: (estado do robô, visualizações de câmera, instrução, sequência de ações).
Higiene do treinamento: unificar o espaço de ações, normalizar as faixas de junta, redimensionar as câmeras.

O OpenVLA e o π0 treinam no Open X-Embodiment. O gap de domínio para qualquer robô específico é fechado pelo ajuste fino com LoRA em 100-1000 demonstrações específicas da tarefa.

Co-fine-tuning vs apenas robô

O co-fine-tuning mistura dados de VQA da web com trajetórias de robôs. A proporção é importante: excesso de VQA faz o modelo esquecer as ações; excesso de dados de robô faz o modelo perder o conhecimento geral.

Proporção do RT-2: ~1:1. OpenVLA: ~0.5:1 web-para-robô. π0: semelhante. A proporção precisa é um hiperparâmetro a ser ajustado por tamanho de conjunto de dados.

O treinamento apenas com robôs produz modelos específicos para tarefas que falham em instruções fora de distribuição. O co-fine-tuning é a diferença entre "pick up the red cube (na demonstração)" e "pick up the third largest object from the left (frase inédita)."

Segurança e limites de ação

Todo VLA de produção é fornecido com:

Limites rígidos de junta (não pode aplicar torque além do especificado).
Limites de velocidade (corte suave).
Limites do espaço de trabalho (o efetuador final não pode sair da mesa).
Aprovação de humano no circuito (human-in-the-loop) para novas tarefas.

Esses limites ficam fora do VLA como verificações de camada de controle. A saída do VLA é uma sugestão, não um comando.

Use It

code/main.py:

Implementa tokenização e de-tokenização de ações em 256 compartimentos.
Esboça um tokenizador FAST baseado em DCT + quantização.
Compara a contagem de tokens por etapa de ação entre (compartimento discreto, FAST, fluxo contínuo).
Imprime um resumo da linhagem de RT-2 → OpenVLA → π0 → GR00T.

Ship It

Esta lição produz outputs/skill-vla-action-format-picker.md. Dada uma tarefa robótica (manipulação, navegação, corpo inteiro humanoide), escolhe entre compartimento discreto + RT-2, FAST + OpenVLA, flow-matching + π0 ou sistema duplo + GR00T.

Exercícios

Um braço de 10-DOF a uma taxa de controle de 30 Hz. A tokenização por compartimentos discretos de 256 bins emite quantos tokens por segundo? Um VLM de 7B consegue acompanhar?
A tokenização FAST comprime trajetórias de 30 etapas para ~10 tokens. O que o usuário perde se a trajetória contiver movimentos de alta frequência (por exemplo, batucar)?
A cabeça de flow-matching do π0 reduz o ruído em ~5 etapas. Compare o throughput com a decodificação autorregresiva do OpenVLA a 4-5 Hz.
A divisão Sistema 1 / Sistema 2 do GR00T mapeia para Kahneman. Proponha uma divisão diferente (Sistema 3?) que possa ajudar na caminhada bípede.
Leia a Seção 4 do artigo do Open X-Embodiment sobre curadoria de datasets. Nomeie as três regras de curadoria que evitam o vazamento de domínio.

Key Terms

Termo	O que as pessoas dizem	O que realmente significa
VLA	"Visão-linguagem-ação"	Modelo que recebe imagem + instrução e emite comandos de ação
Action tokenization	"Compartimentos discretos"	Quantizar alvos de junta contínuos em 256 compartimentos por dimensão, cada um sendo um ID de vocabulário
FAST tokenizer	"Tokens de ação de frequência"	DCT + quantização para comprimir trajetórias de 30 etapas para ~10 tokens
Co-fine-tune	"Misturar web + robô"	Treinar em dados de VQA da web junto com demonstrações de robôs para preservar o conhecimento geral
Flow-matching action head	"Saída contínua do π0"	Pequeno transformer que emite uma sequência de ação de 50 etapas via fluxo retificado
System 1 / System 2	"Controle de sistema duplo"	VLM grande planeja lentamente, cabeça de ação pequena age rapidamente; padrão GR00T
Open X-Embodiment	"Dataset RT-X"	Dataset multirrobô de 1M de trajetórias; o corpus de treinamento