RoPE, QK-Norm y Soft-Capping de Logits
Varias mejoras arquitectónicas de la investigación post-GPT-2 se combinan para obtener ganancias significativas en el speedrun: RoPE, normalización QK y soft-capping de logits de atención.
Varias mejoras arquitectónicas de la investigación post-GPT-2 se combinan para obtener ganancias significativas en el speedrun: RoPE, normalización QK y soft-capping de logits de atención.