VLAs: De la Percepción a la Acción

El Desafío de la IA Embodied

Los Large Language Models pueden escribir poesía, resumir documentos legales y aprobar exámenes médicos — pero no pueden coger una taza de café. En el momento en que un sistema de IA debe interactuar físicamente con el mundo, enfrenta un problema fundamentalmente distinto: convertir comprensión de alto nivel en comandos motores precisos en tiempo real — sobre hardware con sensores ruidosos y actuadores imperfectos.

Los pipelines tradicionales de manipulación robótica descomponen esto en etapas rígidas — percepción (detectar la taza), planificación (calcular una trayectoria libre de colisiones) y control (enviar pares articulares). Cada etapa es un módulo separado, diseñado a mano. Esto funciona bien en entornos estructurados como líneas de ensamblaje, pero tiende a ser frágil: cambiar la iluminación, sustituir la taza por un cuenco o reformular la instrucción suele romper el pipeline.

Los modelos Visión-Lenguaje-Acción (VLAs) buscan reemplazar este pipeline con una única red neuronal que recibe píxeles y una instrucción en lenguaje natural, y produce directamente acciones motoras.

💡 Piensa en un VLA como un modelo fundacional para robótica: igual que GPT generaliza entre tareas de texto, un VLA busca generalizar entre tareas, embodiments y entornos robóticos.

De los VLMs a los VLAs

Los modelos Visión-Lenguaje (VLMs) como CLIP (Radford et al., 2021) , LLaVA (Liu et al., 2023) y PaLI (Chen et al., 2022) ya fusionan comprensión visual y lingüística. Los VLAs añaden una tercera modalidad: acciones .

Un VLA tiene tres componentes fundamentales:

Encoder de visión: Convierte imágenes en tokens visuales. Arquitecturas comunes: ViT (Dosovitskiy et al., 2021) , SigLIP (Zhai et al., 2023) , DINOv2 (Oquab et al., 2024) . Algunos VLAs usan dos encoders: uno semántico y otro espacial.
Backbone de lenguaje: Un LLM pre-entrenado (e.g., Llama 2 (Touvron et al., 2023) , PaLM, Gemma) que procesa tokens visuales y la instrucción.
Cabeza de acción: Produce comandos motores — puede ser desde decodificar tokens del vocabulario del LLM hasta un modelo de difusión que genera trayectorias continuas.

El encoder de visión y el backbone de lenguaje pueden inicializarse desde un VLM pre-entrenado, heredando su comprensión visual y lingüística. El modelo entonces solo necesita aprender el mapeo de esa comprensión a acciones motoras.

Formalmente, un VLA aprende una política $\pi$ que mapea una observación $o_t$ y una instrucción $\ell$ a una acción $a_t$:

a_t = \pi(o_t, \ell)

donde $a_t \in \mathbb{R}^d$ es un vector $d$-dimensional de deltas del efector final. Para un brazo de 7 DoF, $d = 7$. Pero, ¿qué significa esto concretamente? La siguiente sección lo desglosa.

¿Cómo Es una Acción Robótica?

Para mover un brazo robótico, necesitamos indicarle exactamente cómo cambiar su posición en el espacio 3D. La representación más común es el control del efector final : en lugar de especificar ángulos individuales de cada articulación (que varían entre modelos de robot), especificamos cómo debe moverse la punta del brazo — el efector final, típicamente una pinza. Esto hace que el espacio de acciones sea consistente entre distintos robots.

Un vector de acción estándar de 7 DoF (7 grados de libertad) se descompone en tres grupos:

# Un vector de acción para un brazo robótico de 7 DoF
# ┌─────────────────────────────────────────────────────────────────┐
# │  Vector de acción: a_t ∈ ℝ⁷                                    │
# ├─────────────────────────────────────────────────────────────────┤
# │                                                                 │
# │  POSICIÓN (hacia dónde moverse)    3 dimensiones                │
# │  ├── Δx : izquierda/derecha        ej. +0.02 m  (2 cm derecha) │
# │  ├── Δy : adelante/atrás           ej. -0.01 m  (1 cm atrás)  │
# │  └── Δz : arriba/abajo             ej. +0.05 m  (5 cm arriba) │
# │                                                                 │
# │  ROTACIÓN (cómo inclinar/girar)    3 dimensiones                │
# │  ├── Δroll  : rotar en x           ej. +0.0 rad (sin cambio)   │
# │  ├── Δpitch : rotar en y           ej. -0.1 rad (inclinar)     │
# │  └── Δyaw   : rotar en z           ej. +0.0 rad (sin cambio)   │
# │                                                                 │
# │  PINZA (abrir o cerrar)            1 dimensión                  │
# │  └── grip  : estado de la pinza    ej. +1.0 (cerrar pinza)     │
# │                                                                 │
# └─────────────────────────────────────────────────────────────────┘
#
# Ejemplo: "agarra la taza" podría producir esta secuencia:
#
# Paso 1: Moverse sobre la taza  [+0.05, +0.10, +0.00, 0, 0, 0, -1]  (acercar, pinza abierta)
# Paso 2: Bajar a la taza        [+0.00, +0.00, -0.08, 0, 0, 0, -1]  (descender, aún abierta)
# Paso 3: Cerrar pinza           [+0.00, +0.00, +0.00, 0, 0, 0, +1]  (agarrar)
# Paso 4: Levantar               [+0.00, +0.00, +0.12, 0, 0, 0, +1]  (elevar, pinza cerrada)

Cada valor es un delta — un cambio relativo a la posición actual, no una coordenada absoluta. Esto es importante: el modelo no necesita saber dónde está el brazo en la habitación, solo cuánto moverlo desde donde esté. Los deltas son típicamente pequeños (unos pocos centímetros por paso), y el robot ejecuta acciones a 5–10 Hz, de modo que el movimiento suave emerge de muchos pasos pequeños.

La dimensión de la pinza es a menudo binaria en la práctica (abierta o cerrada), pero se representa como un valor continuo para que encaje en el mismo framework que las dimensiones de posición y rotación. Valores cercanos a $-1$ típicamente significan "abrir" y valores cercanos a $+1$ significan "cerrar" (las convenciones varían entre datasets, lo cual es uno de los desafíos cubiertos en el artículo 3).

💡 ¿Por qué 7 dimensiones y no más? Siete es el mínimo para controlar completamente la pose de una pinza en espacio 3D: tres para posición ($x, y, z$), tres para orientación (roll, pitch, yaw) y una para la pinza. Algunas tareas requieren más — una mano diestra como LEAP tiene 16 articulaciones ($d = 16$). Pero para las tareas de manipulación con un solo brazo que la mayoría de VLAs actuales abordan, 7 es el estándar.

Datasets Clave

Los modelos de lenguaje se benefician de billones de tokens de la web. Los datos de robots deben recopilarse físicamente, lo que hace la colección de datos órdenes de magnitud más cara.

Open X-Embodiment (OXE) (Open X-Embodiment et al., 2024) : Dataset colaborativo de 20+ instituciones con ~970K trayectorias en 22 embodiments diferentes.
RT-1 Dataset (Brohan et al., 2022) : ~130K episodios de manipulación en mesa recopilados por Google, anotados con instrucciones en lenguaje natural.
Bridge V2 (Walke et al., 2023) : ~60K demostraciones en un brazo WidowX en entornos de cocina diversos.
DROID (Khazatsky et al., 2024) : ~76K episodios en 564 escenas únicas con un brazo Franka Emika Panda.

📌 GPT-3 se entrenó con ~500 mil millones de tokens. OXE contiene ~970K trayectorias. Los "tokens" de experiencia robótica son órdenes de magnitud menores. Esta escasez de datos es el cuello de botella central.

El Problema de la Representación de Acciones

Las acciones robóticas son inherentemente continuas , pero los LLMs producen tokens discretos . Hay dos enfoques principales:

Tokenización discreta (autoregresiva): Discretizar cada dimensión en $K$ bins y tratarlos como tokens. Usado por RT-2 (Brohan et al., 2023) y OpenVLA (Kim et al., 2024) . Reutiliza la arquitectura del LLM, pero pierde precisión y asume distribuciones uni-modales.
Generación continua (difusión/flow): Una cabeza de acción separada genera acciones continuas mediante Diffusion Policy (Chi et al., 2024) o flow matching (Lipman et al., 2023) . Captura distribuciones multi-modales con precisión completa.

Considera "agarra la taza". Puede haber múltiples agarres válidos — desde la izquierda, derecha o por arriba. Un modelo autoregresivo discreto tiende a comprometerse con una única estrategia de agarre desde el primer token. Un modelo basado en difusión puede representar la distribución completa de agarres válidos. Esta distinción se vuelve particularmente importante para tareas diestras.

Los siguientes artículos exploran ambas familias: el enfoque autoregresivo (RT-2 y OpenVLA), el continuo (Diffusion Policy y π₀ (Black et al., 2024) ) y una comparación final.

Quiz

Comprueba tu comprensión de los fundamentos de VLA.

¿Cuál es la principal limitación de los pipelines tradicionales de manipulación robótica?

Requieren demasiado cómputo

Son frágiles — pequeños cambios en entorno, objetos o instrucciones los rompen

No pueden moverse suficientemente rápido

Requieren demasiados robots

¿Qué mapea la política π de un VLA?

De texto a imágenes

De observación e instrucción de lenguaje a acciones motoras

De ángulos articulares a descripciones en lenguaje

De comandos motores a predicciones visuales

¿Aproximadamente cuántas trayectorias robóticas contiene el dataset Open X-Embodiment?

~10K trayectorias en 5 robots

~100K trayectorias en 10 robots

~970K trayectorias en 22 robots

~10M trayectorias en 50 robots

¿Qué componente diferencia fundamentalmente a un VLA de un VLM?

Un backbone de lenguaje más grande

La cabeza de acción que produce comandos motores

Un encoder de visión más potente

Entrenamiento con más datos de internet

¿Por qué un modelo autoregresivo discreto puede tener dificultades con tareas de múltiples soluciones válidas?

No puede procesar entradas visuales suficientemente rápido

Puede promediar entre modos, produciendo una acción de compromiso inválida

Usa demasiados parámetros para tareas simples

Requiere más datos que los modelos continuos