Atención Enmascarada en Decoders
En un modelo solo-decoder, cada token solo puede atender a posiciones anteriores. Esto se implementa con una máscara causal triangular inferior que establece los logits futuros a $-\infty$ antes de la softmax.
En un modelo solo-decoder, cada token solo puede atender a posiciones anteriores. Esto se implementa con una máscara causal triangular inferior que establece los logits futuros a $-\infty$ antes de la softmax.