Ortogonalizando las Actualizaciones de Gradiente

Muon reemplaza AdamW para las matrices de pesos de capas ocultas, aplicando momento Nesterov y ortogonalizando la actualización mediante iteraciones Newton-Schulz, logrando una reducción de tiempo de entrenamiento de un 25–30% respecto al baseline.