¿Por Qué Tokenizar Acciones?
Los Large Language Models son máquinas de tokens. Reciben tokens, los procesan a través de capas transformer , y producen una distribución de probabilidad sobre el siguiente token. Esta maquinaria autoregresiva está extraordinariamente probada — enormes cantidades de cómputo se han invertido en hacerla funcionar de manera fiable.
La idea central detrás de la tokenización de acciones es engañosamente simple: si convertimos las acciones del robot en tokens, podemos reutilizar todo el stack del LLM sin modificación. El encoder de visión produce tokens de imagen, el usuario provee tokens de lenguaje, y el modelo genera tokens de acción — todo fluyendo por la misma arquitectura transformer.
Esto es atractivo por varias razones. Heredamos el conocimiento del mundo y las capacidades de razonamiento del LLM pre-entrenado. Evitamos diseñar un decodificador de acciones personalizado. Y el sistema completo puede entrenarse con la pérdida estándar de predicción del siguiente token — entropía cruzada sobre el vocabulario.
Pero las acciones son continuas (e.g., mover el brazo 0.0347 metros a la derecha), mientras que los tokens son discretos (índices enteros en un vocabulario). Necesitamos una forma de cerrar esta brecha.
Binning Uniforme
La estrategia de tokenización más simple y utilizada es el binning uniforme : dividir el rango de cada dimensión de acción en $K$ bins igualmente espaciados y asignar a cada bin un índice de token único.
Dado un valor de acción continuo $a$ con límites conocidos $[a_{\min}, a_{\max}]$, el índice del bin es:
Intuitivamente, esto mapea el rango continuo $[a_{\min}, a_{\max}]$ a los enteros $\{0, 1, \ldots, K-1\}$. Con $K = 256$ (la elección más común), cada bin cubre un rango de $\frac{a_{\max} - a_{\min}}{255}$.
Para convertir de vuelta de un índice de bin a un valor continuo (de-tokenización), usamos el centro del bin:
El $+0.5$ centra el valor reconstruido dentro de su bin en lugar de colocarlo en el borde izquierdo, minimizando el error máximo de reconstrucción.
El error de cuantización máximo — la peor diferencia posible entre la acción real y su reconstrucción de-tokenizada — está acotado por la mitad del ancho de un bin:
Para un rango típico de $[-1, 1]$ con $K = 256$, esto da un error máximo de $\frac{2}{512} \approx 0.0039$.
RT-2 — El Primer VLA
RT-2 (Robotics Transformer 2) (Brohan et al., 2023) fue el primer modelo en demostrar que un gran VLM podía co-fine-tunearse directamente para generar acciones robóticas. Publicado por Google DeepMind en 2023, su hallazgo clave fue que el pre-entrenamiento visual-lingüístico a escala web se transfiere significativamente al control robótico, habilitando capacidades como el razonamiento semántico que los modelos puramente robóticos no habían demostrado previamente.
RT-2 se construye sobre dos backbones VLM:
- PaLM-E (12B) (Driess et al., 2023) : Un modelo multimodal que integra características visuales ViT en el espacio de embeddings de PaLM.
- PaLI-X (55B) (Chen et al., 2023) : Un modelo visión-lenguaje con un encoder ViT-22B y un modelo de lenguaje de 32B, el VLA más grande en el momento de su publicación.
La arquitectura es directa: tomar un VLM pre-entrenado, añadir 256 nuevos tokens a su vocabulario (uno por bin), y co-fine-tunear con una mezcla de datos web y datos de demostración robótica. En cada timestep, el robot captura una imagen, el modelo recibe los tokens de imagen más la instrucción de lenguaje, y genera autoregressivamente 7 tokens de acción (6 DoF de deltas del efector final + 1 estado del gripper).
La generación autoregresiva de acciones factoriza la probabilidad conjunta como:
donde $a_t^{(i)}$ es el token del bin de la $i$-ésima dimensión de acción, y $d = 7$. Cada dimensión está condicionada en todas las dimensiones generadas previamente, permitiendo al modelo capturar dependencias entre dimensiones de acción (por ejemplo, la posición en $z$ depende de las posiciones en $x$ e $y$ elegidas).
El objetivo de entrenamiento es la pérdida de entropía cruzada estándar:
donde $a_t^{(i)*}$ denota el bin ground-truth para la dimensión $i$.
Un hallazgo notable fue que RT-2 podía realizar razonamiento chain-of-thought para tareas robóticas, generando pasos de razonamiento textual intermedio antes de emitir acciones.
Limitaciones de la Tokenización Discreta
Aunque la tokenización de acciones reutiliza elegantemente la maquinaria del LLM, introduce varias limitaciones fundamentales:
- Suposición uni-modal: La generación autoregresiva se compromete con una secuencia de acciones. Pero muchas tareas tienen distribuciones de acción multi-modales — hay múltiples formas correctas de agarrar un objeto. Los modelos autoregresivos pueden promediar entre modos (produciendo una acción "compromiso" inválida) o colapsar eligiendo siempre un modo.
- Techo de precisión: Con 256 bins, la resolución es fija. Algunas tareas requieren precisión sub-milimétrica donde el error de cuantización se convierte en el factor limitante.
- Latencia de decodificación secuencial: Para predecir una acción de 7 DoF, el modelo debe ejecutar 7 pasadas forward por el transformer. Para control en tiempo real a 10 Hz, esto puede exceder el presupuesto de ~100 ms.
- Sin coherencia temporal: Cada acción se predice independientemente. No hay mecanismo para imponer trayectorias suaves en el tiempo, lo que puede provocar movimientos bruscos.
Estas limitaciones motivan una familia alternativa — generación continua de acciones vía difusión (Chi et al., 2024) o flow matching (Lipman et al., 2023) — que exploraremos en los artículos 4 y 5.
Quiz
Pon a prueba tu comprensión de la tokenización de acciones y RT-2.
¿Cuál es la principal ventaja de convertir acciones robóticas en tokens?
Si se usan K = 256 bins para tokenizar una dimensión de acción con rango [-1, 1], ¿cuál es el error de cuantización máximo?
¿Cómo genera RT-2 una acción de 7 DoF en cada timestep?
¿Por qué la latencia de decodificación secuencial es un problema para los VLAs autoregresivos en control en tiempo real?
¿Cuál es la capacidad clave que RT-2 heredó de su pre-entrenamiento VLM?