¿Por Qué Tokenizar Acciones?
Los Large Language Models son máquinas de tokens. Reciben tokens, los procesan a través de capas transformer, y producen una distribución de probabilidad sobre el siguiente token. Esta maquinaria autoregresiva está extraordinariamente probada.
La idea central detrás de la tokenización de acciones es engañosamente simple: si convertimos las acciones del robot en tokens, podemos reutilizar todo el stack del LLM sin modificación. El encoder de visión produce tokens de imagen, el usuario provee tokens de lenguaje, y el modelo genera tokens de acción — todo fluyendo por la misma arquitectura transformer.
Esto es atractivo por varias razones. Heredamos el conocimiento del mundo y las capacidades de razonamiento del LLM pre-entrenado. Evitamos diseñar un decodificador de acciones personalizado. Y el sistema completo puede entrenarse con la pérdida estándar de predicción del siguiente token — entropía cruzada sobre el vocabulario.
Pero las acciones son continuas (e.g., mover el brazo 0.0347 metros a la derecha), mientras que los tokens son discretos (índices enteros en un vocabulario). Necesitamos una forma de cerrar esta brecha.
Binning Uniforme
La estrategia de tokenización más simple y utilizada es el binning uniforme : dividir el rango de cada dimensión de acción en $K$ bins igualmente espaciados y asignar a cada bin un índice de token único.
Dado un valor de acción continuo $a$ con límites conocidos $[a_{\min}, a_{\max}]$, el índice del bin es:
Para convertir de vuelta a un valor continuo (de-tokenización), usamos el centro del bin:
El error de cuantización máximo está acotado por la mitad del ancho de un bin:
Para un rango típico de $[-1, 1]$ con $K = 256$, esto da un error máximo de $\frac{2}{512} \approx 0.0039$.
RT-2 — El Primer VLA
RT-2 (Robotics Transformer 2) [1] fue el primer modelo en demostrar que un gran VLM podía co-fine-tunearse directamente para generar acciones robóticas. Publicado por Google DeepMind en 2023, su hallazgo clave: el pre-entrenamiento visual-lingüístico a escala web se transfiere significativamente al control robótico, habilitando capacidades como el razonamiento semántico que los modelos puramente robóticos no podían alcanzar.
RT-2 se construye sobre dos backbones VLM:
- PaLM-E (12B) [2] : Un modelo multimodal que integra características visuales ViT en el espacio de embeddings de PaLM.
- PaLI-X (55B) [3] : Un modelo visión-lenguaje con un encoder ViT-22B y un modelo de lenguaje de 32B, el VLA más grande en el momento de su publicación.
La generación autoregresiva de acciones factoriza la probabilidad conjunta como:
El objetivo de entrenamiento es la pérdida de entropía cruzada estándar:
Un hallazgo notable fue que RT-2 podía realizar razonamiento chain-of-thought para tareas robóticas, generando pasos de razonamiento textual intermedio antes de emitir acciones.
Limitaciones de la Tokenización Discreta
Aunque la tokenización de acciones reutiliza elegantemente la maquinaria del LLM, introduce varias limitaciones fundamentales:
- Suposición uni-modal: La generación autoregresiva se compromete con una secuencia de acciones. Pero muchas tareas tienen distribuciones de acción multi-modales — hay múltiples formas correctas de agarrar un objeto. Los modelos autoregresivos pueden promediar entre modos (produciendo una acción "compromiso" inválida) o colapsar eligiendo siempre un modo.
- Techo de precisión: Con 256 bins, la resolución es fija. Algunas tareas requieren precisión sub-milimétrica donde el error de cuantización se convierte en el factor limitante.
- Latencia de decodificación secuencial: Para predecir una acción de 7 DoF, el modelo debe ejecutar 7 pasadas forward por el transformer. Para control en tiempo real a 10 Hz, esto puede exceder el presupuesto de ~100 ms.
- Sin coherencia temporal: Cada acción se predice independientemente. No hay mecanismo para imponer trayectorias suaves en el tiempo, lo que puede provocar movimientos bruscos.
Estas limitaciones motivan una familia alternativa — generación continua de acciones vía difusión [4] o flow matching [5] — que exploraremos en los artículos 4 y 5.
Quiz
Pon a prueba tu comprensión de la tokenización de acciones y RT-2.
¿Cuál es la principal ventaja de convertir acciones robóticas en tokens?
Si se usan K = 256 bins para tokenizar una dimensión de acción con rango [-1, 1], ¿cuál es el error de cuantización máximo?
¿Cómo genera RT-2 una acción de 7 DoF en cada timestep?
¿Por qué la latencia de decodificación secuencial es un problema para los VLAs autoregresivos en control en tiempo real?
¿Cuál es la capacidad clave que RT-2 heredó de su pre-entrenamiento VLM?