El Objetivo Contrastivo
CLIP entrena un encoder de imagen y otro de texto de forma conjunta en 400 millones de pares imagen-texto, maximizando la similitud coseno de los pares correctos.
CLIP entrena un encoder de imagen y otro de texto de forma conjunta en 400 millones de pares imagen-texto, maximizando la similitud coseno de los pares correctos.