Modelado de Lenguaje Enmascarado

BERT se entrena enmascarando el 15% de los tokens y pidiéndole al modelo que los prediga usando contexto bidireccional, lo que permite ver tanto el contexto izquierdo como el derecho simultáneamente.