¿Qué es el NanoGPT Speedrun?

El NanoGPT Speedrun de Andrej Karpathy es un esfuerzo comunitario para reproducir GPT-2 (124M parámetros) en OpenWebText en el menor tiempo de reloj posible, midiendo únicamente mejoras algorítmicas, no hardware más rápido.

💡 El objetivo es alcanzar la misma pérdida de validación que el checkpoint original de GPT-2 (124M): ~3,28 bits por carácter. Cada entrada debe entrenar desde cero.

Arquitectura

GPT-2 (124M) es un Transformer solo-decoder con los siguientes hiperparámetros:

  • Capas: 12 bloques Transformer
  • Cabezas: 12 cabezas de atención
  • Dimensión de embedding: 768
  • Longitud de contexto: 1024 tokens
  • Tamaño del vocabulario: 50,257 (tokenizador BPE de GPT-2)