Octo — Un Enfoque Híbrido
Mientras RT-2 y OpenVLA reutilizan VLMs como generadores de acciones, y Diffusion Policy/π₀ usan cabezas de denoising dedicadas, Octo (Team et al., 2024) toma un camino diferente: es una política generalista basada en transformer diseñada desde cero para aprendizaje multi-robot y multi-tarea — sin depender de un VLM pre-entrenado en absoluto.
La idea clave de Octo es tokenizar todo : imágenes, instrucciones de lenguaje, estado proprioceptivo y acciones se convierten en secuencias de tokens y se procesan por un único transformer. Esta representación uniforme permite al modelo manejar espacios heterogéneos de observación y acción entre diferentes robots.
La arquitectura tiene tres etapas:
- Tokenizador de observaciones: Las imágenes se codifican con un ViT (Dosovitskiy et al., 2021) , las instrucciones de lenguaje con un modelo de lenguaje pre-entrenado, y el estado proprioceptivo a través de una capa lineal. Todo se concatena en una única secuencia de tokens.
- Backbone transformer: Un transformer estándar procesa la secuencia combinada de tokens usando atención bidireccional (a diferencia de la atención causal estilo GPT). Adicionalmente, se añaden tokens readout — tokens aprendibles que atienden a la secuencia completa de observaciones y agregan la información necesaria para la predicción de acciones.
- Cabeza de acción: Las representaciones de los tokens readout se pasan a una cabeza de acción. Octo soporta dos cabezas: una cabeza de difusión (para tareas multi-modales) y una simple cabeza MLP (para tareas unimodales, con menor costo computacional).
Octo fue entrenado en 800K trayectorias de OXE y es completamente open-source. Su enfoque de "tokenizar todo" lo convierte en una de las arquitecturas más flexibles — añadir una nueva modalidad de sensor solo requiere definir un nuevo tokenizador, sin cambiar el backbone.
Autoregresivo vs Difusión vs Flow
Comparación sistemática de los tres paradigmas:
Representación de acciones:
- Autoregresivo (RT-2 (Brohan et al., 2023) , OpenVLA (Kim et al., 2024) ): Bins discretos, una dimensión a la vez. Reutiliza el vocabulario y la maquinaria de generación del LLM directamente.
- Difusión (Diffusion Policy (Chi et al., 2024) , Octo (Team et al., 2024) ): Vectores continuos, denoising iterativo. Requiere cabeza de acción dedicada.
- Flow (π₀ (Black et al., 2024) ): Vectores continuos, solucionador ODE. Más rápido en inferencia.
Velocidad de inferencia:
- Autoregresivo: ~50-200 ms por dimensión × 7 = cuello de botella para tiempo real.
- Difusión: 20-100 pasos, ~40-100 ms por chunk.
- Flow: 5-10 pasos, ~20-50 ms. Más rápido.
Multi-modalidad:
- Autoregresivo: Tiende a tener dificultades con distribuciones multi-modales, ya que seleccionar un bin a la vez puede llevar al promediado de modos — un fallo bien documentado donde el modelo produce acciones de compromiso inválidas que caen entre dos estrategias válidas.
- Difusión: Maneja distribuciones multi-modales naturalmente — el proceso reverso estocástico puede muestrear de diferentes modos. Esta es una fortaleza fundamental.
- Flow: También maneja multi-modalidad bien. El campo de velocidades aprendido puede divergir en modos diferentes dependiendo de la muestra de ruido inicial.
Aprovechamiento del pre-entrenamiento:
- Autoregresivo: Máxima reutilización del pre-entrenamiento VLM. No se necesitan cambios arquitectónicos.
- Difusión: Moderado. El backbone VLM proporciona características de condicionamiento, pero el denoiser debe entrenarse desde cero.
- Flow: Similar a difusión, pero π₀ muestra que el action expert puede entrenarse junto al backbone VLM con representaciones compartidas.
Leyes de Escala para Aprendizaje Robótico
En modelado de lenguaje, las leyes de escala (Kaplan et al., 2020) predicen que el rendimiento mejora como ley de potencia con el tamaño del modelo, el tamaño del dataset y el cómputo. ¿Ocurre lo mismo con los VLAs?
La evidencia temprana sugiere un sí con matices :
- Más datos ayudan: RT-2-X (Open X-Embodiment et al., 2024) mostró que entrenar en OXE mejoró el rendimiento, pero los beneficios se saturan rápido para tareas individuales.
- Retornos decrecientes en escala de modelo: OpenVLA (7B) igualó a RT-2-X (55B) en la mayoría de los benchmarks evaluados en el paper original, sugiriendo que los datasets robóticos actuales pueden ser demasiado pequeños para beneficiarse de modelos más grandes.
- Pre-entrenamiento VLM es un prior fuerte: Los modelos inicializados desde VLMs superan consistentemente a los entrenados desde cero en datos robóticos.
- Transferencia cross-embodiment es real pero limitada: Un modelo entrenado en datos WidowX puede ayudar en el rendimiento de tareas de Google Robot, pero la transferencia es más débil que el escalado dentro del mismo embodiment.
El campo VLA se encuentra aproximadamente donde estaba el modelado de lenguaje en 2019-2020: hemos demostrado que el enfoque funciona, pero estamos lejos de saturar la curva de escalado porque la recolección de datos sigue siendo órdenes de magnitud más cara que el scraping de texto.
Desafíos Abiertos
A pesar del notable progreso reciente, los VLAs enfrentan varios desafíos fundamentales:
- Escasez de datos: El mayor dataset robótico (~1M trayectorias) es minúsculo. La simulación ayuda pero la brecha sim-to-real limita la transferencia.
- Planificación a largo horizonte: Los VLAs sobresalen en tareas cortas pero luchan con planes multi-paso. Enfoques jerárquicos como SayCan (Ahn et al., 2022) e Inner Monologue (Huang et al., 2023) son una dirección activa.
- Manipulación diestra: Las manos diestras (20+ DoF) tienen espacios de acción exponencialmente mayores que los grippers paralelos de 7 DoF.
- Seguridad: Un robot que alucina produce movimiento físico peligroso. Garantizar fallos seguros es crítico para el despliegue fuera de entornos controlados.
- Tiempo real: La manipulación típicamente requiere control a 10-30 Hz. Un modelo de 7B parámetros generando 7 tokens de acción autoregresivos puede requerir cientos de milisegundos por acción incluso en GPUs de gama alta — demasiado lento para 30 Hz. Modelos más pequeños, action chunking y métodos basados en flow ayudan, pero desplegar VLAs en hardware edge sigue siendo un reto.
- Evaluación: No existe un "ImageNet para robótica". SIMPLER (Li et al., 2024) busca estandarizar la evaluación basada en simulación.
A pesar de estos desafíos, la trayectoria es clara: los VLAs convergen hacia una arquitectura unificada donde un único modelo percibe, razona y actúa. El debate ya no es si los modelos fundacionales pueden controlar robots, sino cómo escalarlos eficientemente.
Quiz
Pon a prueba tu comprensión de las arquitecturas VLA y los desafíos futuros.
¿Cuál es el papel de los "tokens readout" en la arquitectura de Octo?
¿Qué paradigma logra la inferencia más rápida para control en tiempo real?
¿Qué sugiere que OpenVLA (7B) iguale a RT-2-X (55B)?
¿Qué enfoque maneja mejor las distribuciones multi-modales de acciones?
¿Qué es la "brecha sim-to-real" y por qué importa para el entrenamiento de VLAs?