Octo — Un Enfoque Híbrido
Mientras RT-2 y OpenVLA reutilizan VLMs, Octo [1] es una política generalista basada en transformer diseñada desde cero para aprendizaje multi-robot y multi-tarea, sin depender de un VLM pre-entrenado.
La idea clave es tokenizar todo : imágenes, instrucciones, estado proprioceptivo y acciones se convierten en tokens procesados por un único transformer, permitiendo manejar espacios heterogéneos de observación y acción entre diferentes robots.
- Tokenizador de observaciones: Imágenes con ViT [2] , lenguaje con un modelo pre-entrenado, estado proprioceptivo con capa lineal.
- Backbone transformer: Atención bidireccional con tokens readout aprendibles que agregan información de las observaciones para predicción de acciones.
- Cabeza de acción: Soporta cabeza de difusión (tareas multi-modales) y cabeza MLP (tareas unimodales).
Autoregresivo vs Difusión vs Flow
Comparación sistemática de los tres paradigmas:
Representación de acciones:
- Autoregresivo (RT-2 [3] , OpenVLA [4] ): Bins discretos, una dimensión a la vez. Reutiliza el vocabulario y la maquinaria de generación del LLM directamente.
- Difusión (Diffusion Policy [5] , Octo [1] ): Vectores continuos, denoising iterativo. Requiere cabeza de acción dedicada.
- Flow (π₀ [6] ): Vectores continuos, solucionador ODE. Más rápido en inferencia.
Velocidad de inferencia:
- Autoregresivo: ~50-200 ms por dimensión × 7 = cuello de botella para tiempo real.
- Difusión: 20-100 pasos, ~40-100 ms por chunk.
- Flow: 5-10 pasos, ~20-50 ms. Más rápido.
Multi-modalidad:
- Autoregresivo: Tiene dificultades con distribuciones multi-modales; el promediado de modos es un fallo conocido.
- Difusión: Maneja multi-modalidad naturalmente — fortaleza fundamental.
- Flow: También maneja multi-modalidad bien; el campo de velocidades puede divergir en modos diferentes.
Leyes de Escala para Aprendizaje Robótico
Las leyes de escala [7] predicen que el rendimiento mejora como ley de potencia con el tamaño del modelo, dataset y cómputo. La evidencia temprana sugiere un sí con matices :
- Más datos ayudan: RT-2-X [8] mostró que entrenar en OXE mejoró el rendimiento, pero los beneficios se saturan rápido para tareas individuales.
- Retornos decrecientes en escala de modelo: OpenVLA (7B) iguala a RT-2-X (55B). Los datasets robóticos actuales pueden ser demasiado pequeños para beneficiarse de modelos más grandes.
- Pre-entrenamiento VLM es un prior fuerte: Los modelos inicializados desde VLMs superan consistentemente a los entrenados desde cero en datos robóticos.
- Transferencia cross-embodiment es real pero limitada: Un modelo entrenado en datos WidowX puede ayudar en tareas de Google Robot, pero la transferencia es más débil que el escalado dentro del mismo embodiment.
Desafíos Abiertos
- Escasez de datos: El mayor dataset robótico (~1M trayectorias) es minúsculo. La simulación ayuda pero la brecha sim-to-real limita la transferencia.
- Planificación a largo horizonte: Los VLAs sobresalen en tareas cortas pero luchan con planes multi-paso. Enfoques jerárquicos como SayCan [9] e Inner Monologue [10] son una dirección activa.
- Manipulación diestra: Las manos diestras (20+ DoF) tienen espacios de acción exponencialmente mayores que los grippers paralelos de 7 DoF.
- Seguridad: Un robot que alucina produce movimiento físico peligroso. Garantizar fallos seguros es crítico para el despliegue fuera de entornos controlados.
- Tiempo real: Desplegar VLAs en hardware edge (e.g., NVIDIA Jetson) sigue siendo un reto con modelos de miles de millones de parámetros.
- Evaluación: No existe un "ImageNet para robótica". SIMPLER [11] busca estandarizar la evaluación basada en simulación.
A pesar de estos desafíos, la trayectoria es clara: los VLAs convergen hacia una arquitectura unificada donde un único modelo percibe, razona y actúa. El debate ya no es si los modelos fundacionales pueden controlar robots, sino cómo escalarlos eficientemente.
Quiz
Pon a prueba tu comprensión de las arquitecturas VLA y los desafíos futuros.
¿Cuál es el papel de los "tokens readout" en la arquitectura de Octo?
¿Qué paradigma logra la inferencia más rápida para control en tiempo real?
¿Qué sugiere que OpenVLA (7B) iguale a RT-2-X (55B)?
¿Qué enfoque maneja mejor las distribuciones multi-modales de acciones?
¿Qué es la "brecha sim-to-real" y por qué importa para el entrenamiento de VLAs?