¿Por Qué Difusión para Acciones?
El enfoque de tokenización discreta (RT-2, OpenVLA) asume que existe esencialmente una mejor acción . Pero las tareas robóticas son frecuentemente multi-modales — hay múltiples formas igualmente válidas de lograr el mismo objetivo. Considera agarrar una taza: podrías acercarte por la izquierda, la derecha o por arriba. Cada aproximación es perfectamente válida, pero muy diferente en el espacio de acciones.
Un modelo autoregresivo puede intentar promediar entre modos , produciendo una acción inválida que cae entre dos agarres válidos — por ejemplo, alcanzar el espacio vacío entre el asa y el cuerpo de la taza.
Los modelos de difusión manejan exactamente esto: pueden representar distribuciones complejas y multi-modales, generando acciones mediante eliminación iterativa de ruido y capturando naturalmente la distribución completa de comportamientos válidos.
Repaso de DDPM
Diffusion Policy [1] se basa en los Modelos de Difusión Probabilísticos de Denoising (DDPM) [2] . La idea central tiene dos fases:
Proceso forward (añadir ruido): Partiendo de una muestra limpia $x_0$, añadimos ruido gaussiano progresivamente:
donde $\bar{\alpha}_t = \prod_{s=1}^{t}(1 - \beta_s)$. Al llegar a $t = T$, $x_T$ es aproximadamente ruido gaussiano puro.
Proceso reverso (eliminar ruido): Entrenamos una red $\epsilon_\theta(x_t, t)$ para predecir el ruido:
El objetivo de entrenamiento minimiza el MSE entre el ruido predicho y el real:
Arquitectura de Diffusion Policy
Diffusion Policy aplica DDPM a la predicción de acciones robóticas. El modelo genera secuencias de acciones — un chunk de $H$ acciones futuras condicionado en la observación actual. El denoiser puede ser una U-Net temporal 1D (eficiente computacionalmente) o un Transformer (mejor para dependencias de largo alcance).
Partiendo de $A_t^K \sim \mathcal{N}(0, I)$ e iterando $K$ veces se produce el chunk de acción limpio $A_t^0 \in \mathbb{R}^{H \times d}$.
La Idea del Action Chunk
Una de las innovaciones más importantes es el action chunking — predecir una secuencia completa de $H$ acciones futuras a la vez, en lugar de una sola.
- Consistencia temporal: Prediciendo $H$ pasos a la vez, el modelo produce trayectorias suaves y coherentes en lugar de movimientos bruscos.
- Multi-modalidad sobre trayectorias: El modelo se compromete con una estrategia completa para $H$ pasos, evitando la oscilación incoherente entre modos.
- Computación amortizada: Ejecutamos $K$ pasos de denoising una vez y obtenemos $H$ acciones. Con $H = 16$ a 10 Hz, un paso de denoising cubre 1.6 segundos de acciones futuras.
En la práctica se usa ejecución de horizonte receding : ejecutar solo los primeros $h < H$ pasos, luego re-predecir un nuevo chunk desde la observación actualizada.
Entrenamiento e Inferencia
En inferencia, DDPM estándar requiere $K$ pasos de denoising (típicamente 100). Para control robótico en tiempo real, esto es a menudo demasiado lento. DDIM [3] proporciona muestreo determinístico y acelerado con solo 10-20 pasos:
Diffusion Policy con DDIM logra ~50-100 ms por chunk — suficiente para control a 10 Hz combinado con action chunking.
En tareas benchmark, Diffusion Policy superó significativamente a métodos previos como IBC [4] y BeT [5] , especialmente en tareas con distribuciones de acción multi-modales.
Quiz
Pon a prueba tu comprensión de Diffusion Policy y DDPM.
¿Qué problema surge cuando un modelo autoregresivo se entrena con demostraciones de múltiples estrategias de agarre válidas?
¿Qué minimiza la pérdida de entrenamiento de DDPM?
¿Cuál es la forma de la salida de Diffusion Policy en cada paso de denoising?
¿Qué es la ejecución de horizonte receding en Diffusion Policy?
¿Por qué se usa DDIM en vez de DDPM estándar en inferencia para Diffusion Policy?