Auto-Atención Causal

Atención Enmascarada en Decoders

En un modelo solo-decoder, cada token solo puede atender a posiciones anteriores. Esto se implementa con una máscara causal triangular inferior que establece los logits futuros a $-\infty$ antes de la softmax.

¿Te resultó útil este artículo?