Modelado de Lenguaje Enmascarado
BERT se entrena enmascarando el 15% de los tokens y pidiéndole al modelo que los prediga usando contexto bidireccional, lo que permite ver tanto el contexto izquierdo como el derecho simultáneamente.
BERT se entrena enmascarando el 15% de los tokens y pidiéndole al modelo que los prediga usando contexto bidireccional, lo que permite ver tanto el contexto izquierdo como el derecho simultáneamente.