Tokenización de Acciones y RT-2

¿Por Qué Tokenizar Acciones?

Los Large Language Models son máquinas de tokens. Reciben tokens, los procesan a través de capas transformer , y producen una distribución de probabilidad sobre el siguiente token. Esta maquinaria autoregresiva está extraordinariamente probada — enormes cantidades de cómputo se han invertido en hacerla funcionar de manera fiable.

La idea central detrás de la tokenización de acciones es engañosamente simple: si convertimos las acciones del robot en tokens, podemos reutilizar todo el stack del LLM sin modificación. El encoder de visión produce tokens de imagen, el usuario provee tokens de lenguaje, y el modelo genera tokens de acción — todo fluyendo por la misma arquitectura transformer.

Esto es atractivo por varias razones. Heredamos el conocimiento del mundo y las capacidades de razonamiento del LLM pre-entrenado. Evitamos diseñar un decodificador de acciones personalizado. Y el sistema completo puede entrenarse con la pérdida estándar de predicción del siguiente token — entropía cruzada sobre el vocabulario.

Pero las acciones son continuas (e.g., mover el brazo 0.0347 metros a la derecha), mientras que los tokens son discretos (índices enteros en un vocabulario). Necesitamos una forma de cerrar esta brecha.

Binning Uniforme

La estrategia de tokenización más simple y utilizada es el binning uniforme : dividir el rango de cada dimensión de acción en $K$ bins igualmente espaciados y asignar a cada bin un índice de token único.

Dado un valor de acción continuo $a$ con límites conocidos $[a_{\min}, a_{\max}]$, el índice del bin es:

\text{bin}(a) = \left\lfloor \frac{a - a_{\min}}{a_{\max} - a_{\min}} \cdot (K - 1) \right\rfloor

Intuitivamente, esto mapea el rango continuo $[a_{\min}, a_{\max}]$ a los enteros $\{0, 1, \ldots, K-1\}$. Con $K = 256$ (la elección más común), cada bin cubre un rango de $\frac{a_{\max} - a_{\min}}{255}$.

Para convertir de vuelta de un índice de bin a un valor continuo (de-tokenización), usamos el centro del bin:

\hat{a} = a_{\min} + \left(\text{bin} + 0.5\right) \cdot \frac{a_{\max} - a_{\min}}{K}

El $+0.5$ centra el valor reconstruido dentro de su bin en lugar de colocarlo en el borde izquierdo, minimizando el error máximo de reconstrucción.

El error de cuantización máximo — la peor diferencia posible entre la acción real y su reconstrucción de-tokenizada — está acotado por la mitad del ancho de un bin:

|a - \hat{a}| \leq \frac{a_{\max} - a_{\min}}{2K}

Para un rango típico de $[-1, 1]$ con $K = 256$, esto da un error máximo de $\frac{2}{512} \approx 0.0039$.

💡 Piensa en el binning uniforme como redondear a un número fijo de decimales. Con 256 bins sobre [-1, 1], estás esencialmente redondeando a unas 2 cifras decimales — como decir "mover 0.35 metros" en lugar de "mover 0.3472 metros".

RT-2 — El Primer VLA

RT-2 (Robotics Transformer 2) (Brohan et al., 2023) fue el primer modelo en demostrar que un gran VLM podía co-fine-tunearse directamente para generar acciones robóticas. Publicado por Google DeepMind en 2023, su hallazgo clave fue que el pre-entrenamiento visual-lingüístico a escala web se transfiere significativamente al control robótico, habilitando capacidades como el razonamiento semántico que los modelos puramente robóticos no habían demostrado previamente.

RT-2 se construye sobre dos backbones VLM:

PaLM-E (12B) (Driess et al., 2023) : Un modelo multimodal que integra características visuales ViT en el espacio de embeddings de PaLM.
PaLI-X (55B) (Chen et al., 2023) : Un modelo visión-lenguaje con un encoder ViT-22B y un modelo de lenguaje de 32B, el VLA más grande en el momento de su publicación.

La arquitectura es directa: tomar un VLM pre-entrenado, añadir 256 nuevos tokens a su vocabulario (uno por bin), y co-fine-tunear con una mezcla de datos web y datos de demostración robótica. En cada timestep, el robot captura una imagen, el modelo recibe los tokens de imagen más la instrucción de lenguaje, y genera autoregressivamente 7 tokens de acción (6 DoF de deltas del efector final + 1 estado del gripper).

La generación autoregresiva de acciones factoriza la probabilidad conjunta como:

p(a_t | o_t, \ell) = \prod_{i=1}^{d} p(a_t^{(i)} | a_t^{(1)}, \ldots, a_t^{(i-1)}, o_t, \ell)

donde $a_t^{(i)}$ es el token del bin de la $i$-ésima dimensión de acción, y $d = 7$. Cada dimensión está condicionada en todas las dimensiones generadas previamente, permitiendo al modelo capturar dependencias entre dimensiones de acción (por ejemplo, la posición en $z$ depende de las posiciones en $x$ e $y$ elegidas).

El objetivo de entrenamiento es la pérdida de entropía cruzada estándar:

\mathcal{L} = -\sum_{i=1}^{d} \log p\bigl(a_t^{(i)*} \;\big|\; a_t^{(1)*}, \ldots, a_t^{(i-1)*},\, o_t,\, \ell\bigr)

donde $a_t^{(i)*}$ denota el bin ground-truth para la dimensión $i$.

Un hallazgo notable fue que RT-2 podía realizar razonamiento chain-of-thought para tareas robóticas, generando pasos de razonamiento textual intermedio antes de emitir acciones.

Limitaciones de la Tokenización Discreta

Aunque la tokenización de acciones reutiliza elegantemente la maquinaria del LLM, introduce varias limitaciones fundamentales:

Suposición uni-modal: La generación autoregresiva se compromete con una secuencia de acciones. Pero muchas tareas tienen distribuciones de acción multi-modales — hay múltiples formas correctas de agarrar un objeto. Los modelos autoregresivos pueden promediar entre modos (produciendo una acción "compromiso" inválida) o colapsar eligiendo siempre un modo.
Techo de precisión: Con 256 bins, la resolución es fija. Algunas tareas requieren precisión sub-milimétrica donde el error de cuantización se convierte en el factor limitante.
Latencia de decodificación secuencial: Para predecir una acción de 7 DoF, el modelo debe ejecutar 7 pasadas forward por el transformer. Para control en tiempo real a 10 Hz, esto puede exceder el presupuesto de ~100 ms.
Sin coherencia temporal: Cada acción se predice independientemente. No hay mecanismo para imponer trayectorias suaves en el tiempo, lo que puede provocar movimientos bruscos.

Estas limitaciones motivan una familia alternativa — generación continua de acciones vía difusión (Chi et al., 2024) o flow matching (Lipman et al., 2023) — que exploraremos en los artículos 4 y 5.

Quiz

Pon a prueba tu comprensión de la tokenización de acciones y RT-2.

¿Cuál es la principal ventaja de convertir acciones robóticas en tokens?

Hace las acciones más precisas

Permite reutilizar todo el stack del LLM pre-entrenado sin cambios arquitectónicos

Acelera la ejecución del robot 10x

Elimina la necesidad de un encoder de visión

Si se usan K = 256 bins para tokenizar una dimensión de acción con rango [-1, 1], ¿cuál es el error de cuantización máximo?

1/128 ≈ 0.0078

1/256 ≈ 0.0039

1/512 ≈ 0.0020

1/64 ≈ 0.0156

¿Cómo genera RT-2 una acción de 7 DoF en cada timestep?

Predice las 7 dimensiones simultáneamente en una pasada forward

Genera autoregressivamente 7 tokens de bin, cada uno condicionado en los anteriores

Usa un proceso de difusión para eliminar ruido de 7 valores continuos

Recupera la acción más cercana de una base de datos de demostraciones

¿Por qué la latencia de decodificación secuencial es un problema para los VLAs autoregresivos en control en tiempo real?

Los sensores del robot no pueden seguir el ritmo de salida del modelo

Predecir 7 dimensiones de acción requiere 7 pasadas forward completas, que pueden exceder el presupuesto de ~100ms para control a 10 Hz

Los tokens son demasiado grandes para caber en la memoria de la GPU

Los motores del robot no pueden manejar comandos discretos

¿Cuál es la capacidad clave que RT-2 heredó de su pre-entrenamiento VLM?

Mayor velocidad de ejecución motora

Razonamiento semántico y planificación chain-of-thought para tareas robóticas

Mejor percepción de profundidad con cámaras estéreo

La capacidad de operar múltiples robots simultáneamente