Ortogonalizando las Actualizaciones de Gradiente
Muon (Momentum + Orthogonalization Using Newton-Schulz) reemplaza AdamW para las matrices de pesos de capas ocultas. Aplica momentum Nesterov y luego ortogonaliza la actualización mediante unas pocas iteraciones de Newton-Schulz, asegurando que la matriz de actualización del gradiente tenga columnas ortonormales.
Esto mejora la señal de aprendizaje efectiva por paso y es una de las mayores ganancias individuales del speedrun, reduciendo el tiempo de entrenamiento en aproximadamente un 25–30% respecto al baseline con AdamW.