Comparación de Arquitecturas y Direcciones Futuras

Octo — Un Enfoque Híbrido

Mientras RT-2 y OpenVLA reutilizan VLMs como generadores de acciones, y Diffusion Policy/π₀ usan cabezas de denoising dedicadas, Octo (Team et al., 2024) toma un camino diferente: es una política generalista basada en transformer diseñada desde cero para aprendizaje multi-robot y multi-tarea — sin depender de un VLM pre-entrenado en absoluto.

La idea clave de Octo es tokenizar todo : imágenes, instrucciones de lenguaje, estado proprioceptivo y acciones se convierten en secuencias de tokens y se procesan por un único transformer. Esta representación uniforme permite al modelo manejar espacios heterogéneos de observación y acción entre diferentes robots.

La arquitectura tiene tres etapas:

Tokenizador de observaciones: Las imágenes se codifican con un ViT (Dosovitskiy et al., 2021) , las instrucciones de lenguaje con un modelo de lenguaje pre-entrenado, y el estado proprioceptivo a través de una capa lineal. Todo se concatena en una única secuencia de tokens.
Backbone transformer: Un transformer estándar procesa la secuencia combinada de tokens usando atención bidireccional (a diferencia de la atención causal estilo GPT). Adicionalmente, se añaden tokens readout — tokens aprendibles que atienden a la secuencia completa de observaciones y agregan la información necesaria para la predicción de acciones.
Cabeza de acción: Las representaciones de los tokens readout se pasan a una cabeza de acción. Octo soporta dos cabezas: una cabeza de difusión (para tareas multi-modales) y una simple cabeza MLP (para tareas unimodales, con menor costo computacional).

Octo fue entrenado en 800K trayectorias de OXE y es completamente open-source. Su enfoque de "tokenizar todo" lo convierte en una de las arquitecturas más flexibles — añadir una nueva modalidad de sensor solo requiere definir un nuevo tokenizador, sin cambiar el backbone.

💡 Los tokens readout son como posiciones de "resumen" designadas en la secuencia. Mientras los tokens de observación codifican lo que el robot ve y escucha, los tokens readout aprenden a hacer las preguntas correctas a los tokens de observación mediante atención y destilar las respuestas en una representación compacta para la predicción de acciones.

Autoregresivo vs Difusión vs Flow

Comparación sistemática de los tres paradigmas:

Representación de acciones:

Autoregresivo (RT-2 (Brohan et al., 2023) , OpenVLA (Kim et al., 2024) ): Bins discretos, una dimensión a la vez. Reutiliza el vocabulario y la maquinaria de generación del LLM directamente.
Difusión (Diffusion Policy (Chi et al., 2024) , Octo (Team et al., 2024) ): Vectores continuos, denoising iterativo. Requiere cabeza de acción dedicada.
Flow (π₀ (Black et al., 2024) ): Vectores continuos, solucionador ODE. Más rápido en inferencia.

Velocidad de inferencia:

Autoregresivo: ~50-200 ms por dimensión × 7 = cuello de botella para tiempo real.
Difusión: 20-100 pasos, ~40-100 ms por chunk.
Flow: 5-10 pasos, ~20-50 ms. Más rápido.

Multi-modalidad:

Autoregresivo: Tiende a tener dificultades con distribuciones multi-modales, ya que seleccionar un bin a la vez puede llevar al promediado de modos — un fallo bien documentado donde el modelo produce acciones de compromiso inválidas que caen entre dos estrategias válidas.
Difusión: Maneja distribuciones multi-modales naturalmente — el proceso reverso estocástico puede muestrear de diferentes modos. Esta es una fortaleza fundamental.
Flow: También maneja multi-modalidad bien. El campo de velocidades aprendido puede divergir en modos diferentes dependiendo de la muestra de ruido inicial.

Aprovechamiento del pre-entrenamiento:

Autoregresivo: Máxima reutilización del pre-entrenamiento VLM. No se necesitan cambios arquitectónicos.
Difusión: Moderado. El backbone VLM proporciona características de condicionamiento, pero el denoiser debe entrenarse desde cero.
Flow: Similar a difusión, pero π₀ muestra que el action expert puede entrenarse junto al backbone VLM con representaciones compartidas.

Leyes de Escala para Aprendizaje Robótico

En modelado de lenguaje, las leyes de escala (Kaplan et al., 2020) predicen que el rendimiento mejora como ley de potencia con el tamaño del modelo, el tamaño del dataset y el cómputo. ¿Ocurre lo mismo con los VLAs?

La evidencia temprana sugiere un sí con matices :

Más datos ayudan: RT-2-X (Open X-Embodiment et al., 2024) mostró que entrenar en OXE mejoró el rendimiento, pero los beneficios se saturan rápido para tareas individuales.
Retornos decrecientes en escala de modelo: OpenVLA (7B) igualó a RT-2-X (55B) en la mayoría de los benchmarks evaluados en el paper original, sugiriendo que los datasets robóticos actuales pueden ser demasiado pequeños para beneficiarse de modelos más grandes.
Pre-entrenamiento VLM es un prior fuerte: Los modelos inicializados desde VLMs superan consistentemente a los entrenados desde cero en datos robóticos.
Transferencia cross-embodiment es real pero limitada: Un modelo entrenado en datos WidowX puede ayudar en el rendimiento de tareas de Google Robot, pero la transferencia es más débil que el escalado dentro del mismo embodiment.

El campo VLA se encuentra aproximadamente donde estaba el modelado de lenguaje en 2019-2020: hemos demostrado que el enfoque funciona, pero estamos lejos de saturar la curva de escalado porque la recolección de datos sigue siendo órdenes de magnitud más cara que el scraping de texto.

Desafíos Abiertos

A pesar del notable progreso reciente, los VLAs enfrentan varios desafíos fundamentales:

Escasez de datos: El mayor dataset robótico (~1M trayectorias) es minúsculo. La simulación ayuda pero la brecha sim-to-real limita la transferencia.
Planificación a largo horizonte: Los VLAs sobresalen en tareas cortas pero luchan con planes multi-paso. Enfoques jerárquicos como SayCan (Ahn et al., 2022) e Inner Monologue (Huang et al., 2023) son una dirección activa.
Manipulación diestra: Las manos diestras (20+ DoF) tienen espacios de acción exponencialmente mayores que los grippers paralelos de 7 DoF.
Seguridad: Un robot que alucina produce movimiento físico peligroso. Garantizar fallos seguros es crítico para el despliegue fuera de entornos controlados.
Tiempo real: La manipulación típicamente requiere control a 10-30 Hz. Un modelo de 7B parámetros generando 7 tokens de acción autoregresivos puede requerir cientos de milisegundos por acción incluso en GPUs de gama alta — demasiado lento para 30 Hz. Modelos más pequeños, action chunking y métodos basados en flow ayudan, pero desplegar VLAs en hardware edge sigue siendo un reto.
Evaluación: No existe un "ImageNet para robótica". SIMPLER (Li et al., 2024) busca estandarizar la evaluación basada en simulación.

📌 El campo VLA tiene ~2 años (RT-2: julio 2023). GPT-1 apareció en junio 2018 y tardó ~4 años en llegar a GPT-4. Si los VLAs siguen una trayectoria similar, estamos en etapas muy tempranas.

A pesar de estos desafíos, la trayectoria es clara: los VLAs convergen hacia una arquitectura unificada donde un único modelo percibe, razona y actúa. El debate ya no es si los modelos fundacionales pueden controlar robots, sino cómo escalarlos eficientemente.

Quiz

Pon a prueba tu comprensión de las arquitecturas VLA y los desafíos futuros.

¿Cuál es el papel de los "tokens readout" en la arquitectura de Octo?

Codifican la instrucción de lenguaje

Son tokens aprendibles que atienden a las observaciones y agregan información para la predicción de acciones

Almacenan el estado proprioceptivo del robot

Representan las dimensiones de acción de salida

¿Qué paradigma logra la inferencia más rápida para control en tiempo real?

Autoregresivo (RT-2, OpenVLA)

Difusión (Diffusion Policy)

Flow matching (π₀) — 5-10 pasos ODE, ~20-50 ms por chunk

Los tres son igualmente rápidos

¿Qué sugiere que OpenVLA (7B) iguale a RT-2-X (55B)?

Los modelos más grandes son siempre mejores

Los datasets robóticos actuales pueden ser demasiado pequeños para beneficiarse de modelos más grandes

7B es el tamaño óptimo para todas las tareas

La arquitectura importa más que el tamaño del modelo o datos

¿Qué enfoque maneja mejor las distribuciones multi-modales de acciones?

Tokenización autoregresiva (RT-2, OpenVLA)

Generación basada en difusión y flow (Diffusion Policy, π₀)

Cabeza de acción MLP simple

Todos los enfoques manejan la multi-modalidad igual de bien

¿Qué es la "brecha sim-to-real" y por qué importa para el entrenamiento de VLAs?

La diferencia de tamaño entre modelos de simulación y del mundo real

La diferencia entre física/renderizado/sensores simulados y reales, que limita la transferencia de datos simulados a robots reales

El tiempo necesario para mover un modelo de simulación a un robot real

La brecha entre instrucciones de lenguaje simuladas y reales