¿Qué es el NanoGPT Speedrun?
El NanoGPT Speedrun de Andrej Karpathy es un esfuerzo comunitario para reproducir GPT-2 (124M parámetros) en OpenWebText en el menor tiempo de reloj posible, midiendo únicamente mejoras algorítmicas, no hardware más rápido.
El objetivo es alcanzar la misma pérdida de validación que el checkpoint original de GPT-2 (124M): ~3,28 bits por carácter. Cada entrada debe entrenar desde cero.
Arquitectura
GPT-2 (124M) es un Transformer solo-decoder con los siguientes hiperparámetros:
- Capas: 12 bloques Transformer
- Cabezas: 12 cabezas de atención
- Dimensión de embedding: 768
- Longitud de contexto: 1024 tokens
- Tamaño del vocabulario: 50,257 (tokenizador BPE de GPT-2)