RoPE, QK-Norm y Soft-Capping de Logits
Varios cambios arquitectónicos provenientes de la investigación post-GPT-2 se combinan para producir ganancias significativas en el speedrun:
- Rotary Positional Embeddings (RoPE): reemplazan los embeddings posicionales absolutos aprendidos con rotaciones relativas en el espacio QK, mejorando la generalización a distintas longitudes.
- QK-Norm: normaliza los vectores de query y key antes del producto punto, estabilizando los logits de atención y permitiendo learning rates más altos.
- Logit soft-capping: aplica $\tanh(x / c) \cdot c$ a los logits de atención antes del softmax, previniendo el colapso de entropía en secuencias largas.