Phase 12 - Lesson 21
VLAs Incorporados: RT-2, OpenVLA, π0, GR00T
A primeira vez que um modelo leu uma receita de um site e a executou em um robô de cozinha foi o RT-2 (Google DeepMind, julho de 2023). O RT-2 discretizou ações como tokens de texto, realizou o ajuste fino conjunto (co-fine-tuning) de um VLM em dados da web e em dados de ações de robôs, e provou que o conhecimento de visão e linguagem em escala de web é transferido para o controle robótico. O OpenVLA (junho de 2024) entregou a referência aberta de 7B. A série π0 da Physical Intelligence (2024-2025) adicionou especialistas de ação baseados em flow-matching. O GR00T N1 da NVIDIA (março de 2025) forneceu controle de sistema duplo (Sistema 1 / Sistema 2) para robôs humanoides em escala. A primitiva VLA — visão-linguagem-ação, um único modelo que vê, lê e age — é a ponte entre os modelos de compreensão desta fase e os sistemas autônomos na Fase 15.
Tipo: Learn Linguagens: Python (stdlib, tokenizador de ações + esqueleto de inferência VLA) Pré-requisitos: Phase 12 · 05 (LLaVA), Phase 15 (Sistemas Autônomos, referenciado) Tempo: ~180 minutos
Objetivos de Aprendizado
- Descrever a tokenização de ações: codificação de compartimentos discretos (discrete bin encoding - RT-2), tokens de ação eficientes FAST e ações contínuas por flow-matching (π0).
- Explicar por que o co-fine-tuning em dados da web + robô preserva a transferência de conhecimento geral para novas tarefas.
- Comparar o OpenVLA (Llama+VLM aberto de 7B), π0 (flow-matching) e GR00T N1 (sistema duplo) na mesma tarefa robótica.
- Nomear o conjunto de dados Open X-Embodiment e seu papel como o corpus de treinamento do RT-X.
O Problema
Um robô que realiza tarefas domésticas a partir de instruções em linguagem natural tem sido um objetivo de pesquisa desde a década de 1970. A resposta da década de 2020: um modelo de visão-linguagem-ação (VLA). A mesma arquitetura VLM usada para VQA, mas a saída são ações (torques de junta, poses do efetuador final, comandos discretos) em vez de texto.
Desafios específicos dos VLAs:
- Os espaços de ação são contínuos (ângulos de junta, forças) e de alta dimensão (braço de 7-DOF + garra de 3-DOF = 10 dimensões a 30 Hz).
- Dados de treinamento específicos para robôs são escassos. O Open X-Embodiment possui ~1M de trajetórias; texto-imagem da web tem mais de 5B.
- A frequência de controle é importante. Um loop de controle de 30 Hz significa um orçamento de 33ms por ação.
- Segurança. Uma ação errada danifica o hardware, humanos ou propriedade.
O Conceito
Tokenização de ações (RT-2)
O truque do RT-2: representar cada alvo de junta como um token de texto quantizado. Discretizar a faixa normalizada [-1, 1] em 256 compartimentos (bins), mapeando cada compartimento para um ID de vocabulário. Uma ação de 10-DOF torna-se 10 tokens a cada etapa de controle.
Realizar o co-fine-tuning de um VLM PaLM-X em uma mistura de:
- Pares de imagem-texto da web (legendagem, VQA).
- Demonstrações de robôs, ações como tokens.
O modelo vê "pick up the red cube" (linguagem) → imagem (visão) → sequência de ações de 10 tokens (alvos de junta discretizados). O pré-treinamento na web preserva a transferência de conhecimento geral: o RT-2 pode seguir "move towards the fast-moving object" mesmo que "fast-moving" não esteja nos dados de treinamento.
Inferência a 3-5 Hz no artigo do RT-2, limitada pela decodificação autorregresiva do VLM.
OpenVLA — a referência aberta de 7B
O OpenVLA (Kim et al., junho de 2024) é o equivalente de pesos abertos do RT-2. Backbone Llama de 7B, codificador de visão duplo DINOv2 + SigLIP, tokenização de ações em 256 compartimentos.
Treinado no Open X-Embodiment (970k trajetórias em 22 robôs). Acompanha suporte a fine-tuning com LoRA para adaptação a novos robôs.
Inferência: 4-5 Hz em uma GPU A100 com quantização. Rápido o suficiente para manipulação lenta, mas não para controle de alta frequência.
Tokenizador FAST — decodificação de ação mais rápida
Pertsch et al. (2024) mostraram que a tokenização por compartimentos discretos é ineficiente — a maioria das ações se concentra em uma pequena região do espaço de compartimentos. O FAST (Frequency-domain Action Sequence Tokenizer) comprime sequências de ações via DCT e quantiza os coeficientes.
Uma trajetória de ação de 30 etapas torna-se ~10 tokens FAST em vez de 300 tokens de compartimentos discretos. A inferência acelera de 3 a 5 vezes sem perda de qualidade.
π0 e ações de flow-matching
O π0 da Physical Intelligence (Black et al., outubro de 2024) substitui os tokens de ação discretos por um especialista de ação por flow-matching:
- Um pequeno transformer de ação lê os estados ocultos do VLM e emite uma sequência de ação contínua de 50 etapas via fluxo retificado.
- A cabeça de ação treina com perda por correspondência de fluxo (flow-matching loss); o pré-treinamento do VLM permanece inalterado.
- Inferência: sequência completa de ações emitida em ~5 etapas de redução de ruído (denoising), efetivamente um controle de 50 Hz.
A alegação do π0: supera o OpenVLA e o Octo em um amplo conjunto de tarefas de manipulação. A formulação de ação contínua preserva a suavidade que a discretização destrói.
O π0.5 e o π0-FAST são atualizações incrementais. O π0-FAST combina tokenização FAST com correspondência de fluxo.
GR00T N1 — sistema duplo para humanoides
O GR00T N1 da NVIDIA (março de 2025) foi construído para robôs humanoides (>30 DOF, corpo inteiro):
- Sistema 2: um VLM grande que lê a cena + instrução, produzindo submetas de alto nível a ~1 Hz.
- Sistema 1: um pequeno transformer de cabeça de ação que produz comandos de junta de baixo nível de 50-100 Hz condicionados às submetas.
A divisão mapeia para o pensamento rápido e lento de Kahneman: o Sistema 2 planeja, o Sistema 1 age. Benefícios: o planejamento lento do tamanho de um VLM não bloqueia o controle rápido; o Sistema 1 permanece pequeno para garantir baixa latência.
O GR00T N1.7 (final de 2025) melhora o escalonamento de dados. O GR00T realiza o ajuste fino com dados de simulação para o mundo real (sim-to-real) do Omniverse.
Open X-Embodiment
Os dados de treinamento. O RT-X (outubro de 2023) reuniu 22 conjuntos de dados cobrindo 1M de trajetórias em 22 robôs. O Open X-Embodiment é o corpus que todos usam:
- ALOHA / Bridge V2 / Droid / RT-2 Kitchen / Language Table.
- Cada amostra: (estado do robô, visualizações de câmera, instrução, sequência de ações).
- Higiene do treinamento: unificar o espaço de ações, normalizar as faixas de junta, redimensionar as câmeras.
O OpenVLA e o π0 treinam no Open X-Embodiment. O gap de domínio para qualquer robô específico é fechado pelo ajuste fino com LoRA em 100-1000 demonstrações específicas da tarefa.
Co-fine-tuning vs apenas robô
O co-fine-tuning mistura dados de VQA da web com trajetórias de robôs. A proporção é importante: excesso de VQA faz o modelo esquecer as ações; excesso de dados de robô faz o modelo perder o conhecimento geral.
Proporção do RT-2: ~1:1. OpenVLA: ~0.5:1 web-para-robô. π0: semelhante. A proporção precisa é um hiperparâmetro a ser ajustado por tamanho de conjunto de dados.
O treinamento apenas com robôs produz modelos específicos para tarefas que falham em instruções fora de distribuição. O co-fine-tuning é a diferença entre "pick up the red cube (na demonstração)" e "pick up the third largest object from the left (frase inédita)."
Segurança e limites de ação
Todo VLA de produção é fornecido com:
- Limites rígidos de junta (não pode aplicar torque além do especificado).
- Limites de velocidade (corte suave).
- Limites do espaço de trabalho (o efetuador final não pode sair da mesa).
- Aprovação de humano no circuito (human-in-the-loop) para novas tarefas.
Esses limites ficam fora do VLA como verificações de camada de controle. A saída do VLA é uma sugestão, não um comando.
Use It
code/main.py:
- Implementa tokenização e de-tokenização de ações em 256 compartimentos.
- Esboça um tokenizador FAST baseado em DCT + quantização.
- Compara a contagem de tokens por etapa de ação entre (compartimento discreto, FAST, fluxo contínuo).
- Imprime um resumo da linhagem de RT-2 → OpenVLA → π0 → GR00T.
Ship It
Esta lição produz outputs/skill-vla-action-format-picker.md. Dada uma tarefa robótica (manipulação, navegação, corpo inteiro humanoide), escolhe entre compartimento discreto + RT-2, FAST + OpenVLA, flow-matching + π0 ou sistema duplo + GR00T.
Exercícios
Um braço de 10-DOF a uma taxa de controle de 30 Hz. A tokenização por compartimentos discretos de 256 bins emite quantos tokens por segundo? Um VLM de 7B consegue acompanhar?
A tokenização FAST comprime trajetórias de 30 etapas para ~10 tokens. O que o usuário perde se a trajetória contiver movimentos de alta frequência (por exemplo, batucar)?
A cabeça de flow-matching do π0 reduz o ruído em ~5 etapas. Compare o throughput com a decodificação autorregresiva do OpenVLA a 4-5 Hz.
A divisão Sistema 1 / Sistema 2 do GR00T mapeia para Kahneman. Proponha uma divisão diferente (Sistema 3?) que possa ajudar na caminhada bípede.
Leia a Seção 4 do artigo do Open X-Embodiment sobre curadoria de datasets. Nomeie as três regras de curadoria que evitam o vazamento de domínio.
Key Terms
| Termo | O que as pessoas dizem | O que realmente significa |
|---|---|---|
| VLA | "Visão-linguagem-ação" | Modelo que recebe imagem + instrução e emite comandos de ação |
| Action tokenization | "Compartimentos discretos" | Quantizar alvos de junta contínuos em 256 compartimentos por dimensão, cada um sendo um ID de vocabulário |
| FAST tokenizer | "Tokens de ação de frequência" | DCT + quantização para comprimir trajetórias de 30 etapas para ~10 tokens |
| Co-fine-tune | "Misturar web + robô" | Treinar em dados de VQA da web junto com demonstrações de robôs para preservar o conhecimento geral |
| Flow-matching action head | "Saída contínua do π0" | Pequeno transformer que emite uma sequência de ação de 50 etapas via fluxo retificado |
| System 1 / System 2 | "Controle de sistema duplo" | VLM grande planeja lentamente, cabeça de ação pequena age rapidamente; padrão GR00T |
| Open X-Embodiment | "Dataset RT-X" | Dataset multirrobô de 1M de trajetórias; o corpus de treinamento |