CLIP: Pre-entrenamiento Contrastivo Lenguaje-Imagen

El Objetivo Contrastivo

CLIP entrena un encoder de imagen y otro de texto de forma conjunta en 400 millones de pares imagen-texto, maximizando la similitud coseno de los pares correctos.

¿Te resultó útil este artículo?