Ortogonalizando las Actualizaciones de Gradiente

Muon (Momentum + Orthogonalization Using Newton-Schulz) reemplaza AdamW para las matrices de pesos de capas ocultas. Aplica momentum Nesterov y luego ortogonaliza la actualización mediante unas pocas iteraciones de Newton-Schulz, asegurando que la matriz de actualización del gradiente tenga columnas ortonormales.

Esto mejora la señal de aprendizaje efectiva por paso y es una de las mayores ganancias individuales del speedrun, reduciendo el tiempo de entrenamiento en aproximadamente un 25–30% respecto al baseline con AdamW.

📌 Muon se aplica únicamente a las matrices de pesos ocultas. Los embeddings y los biases siguen utilizando AdamW.