La Brecha entre Modalidades
Un clasificador de imágenes entrenado en ImageNet puede mirar una foto y etiquetarla como "golden retriever", pero no puede responder "¿qué está haciendo el perro?" ni "¿es una buena mascota para un apartamento?" . Ve píxeles, detecta patrones y produce una de mil etiquetas predefinidas. Mientras tanto, un modelo de lenguaje puede hablar de perros con elocuencia — razas, temperamentos, consejos de adiestramiento — pero jamás ha visto un solo píxel. Conoce la palabra "esponjoso" como un token que tiende a aparecer cerca de "pelaje" y "suave", pero no tiene concepto alguno de cómo se ve lo esponjoso en una imagen. Estos dos mundos — visión y lenguaje — se desarrollaron de forma independiente, cada uno poderoso en su propio dominio pero completamente ciego al otro.
La razón de esta ceguera mutua es que imágenes y texto habitan espacios representacionales fundamentalmente distintos. Una imagen es un tensor 3D de valores de píxeles RGB: una foto de 224×224, por ejemplo, es una cuadrícula de 150.528 números entre 0 y 255. El texto, en cambio, es una secuencia de índices discretos de vocabulario: cada palabra o subpalabra se mapea a un entero en un diccionario fijo. No existe un puente natural entre estos formatos. Un modelo entrenado solo con imágenes no tiene concepto de "esponjoso" como palabra; un modelo entrenado solo con texto no tiene concepto de "esponjoso" como textura que se puede ver en una foto.
Los Modelos Visión-Lenguaje (VLMs) cierran esta brecha aprendiendo un espacio de embeddings compartido donde imágenes y texto pueden compararse directamente. La idea clave es engañosamente simple: si la descripción "un golden retriever jugando a buscar la pelota en un parque" y una foto de exactamente esa escena se mapean a puntos cercanos en el mismo espacio vectorial, desbloqueamos una clase completamente nueva de capacidades. La imagen no necesita una etiqueta — tiene una posición en un espacio donde el lenguaje ya vive, y esa posición nos dice lo que la imagen significa.
El modelo que demostró que esta idea funciona a escala es CLIP (Radford et al., 2021) , que entrenó un encoder de imagen y un encoder de texto de forma conjunta sobre 400 millones de pares imagen-texto extraídos de internet. Cubriremos CLIP en profundidad en el artículo 2. Por ahora, la conclusión importante es que los espacios de embeddings compartidos no son una curiosidad teórica — son la base de todo VLM práctico en la actualidad.
¿Qué Permite el Alineamiento?
Una vez que imágenes y texto comparten el mismo espacio de embeddings, una única métrica de similitud — típicamente la similitud coseno — funciona en ambas direcciones. Esto desbloquea capacidades que son impracticables o inviables con modelos de imagen y texto separados:
- Clasificación zero-shot: no se necesitan datos etiquetados de entrenamiento. Para clasificar una imagen, se codifica y se compara su embedding contra descripciones textuales de cada clase candidata ("una foto de un gato", "una foto de un perro", "una foto de un coche"). La clase cuyo embedding de texto esté más cerca del embedding de la imagen gana. Un clasificador de ImageNet necesita 1,2 millones de imágenes etiquetadas y solo reconoce las categorías con las que fue entrenado; un VLM con clasificación zero-shot necesita cero imágenes etiquetadas y maneja cualquier categoría que puedas describir con palabras.
- Búsqueda cross-modal: buscar en una base de datos de millones de imágenes usando una consulta de texto como "atardecer sobre el mar con un velero", o ir en la dirección opuesta — dada una imagen, encontrar descripciones de texto que coincidan. La misma métrica de similitud funciona en ambos sentidos porque imágenes y texto ocupan el mismo espacio. Esta es la tecnología detrás de la búsqueda de imágenes en productos como Google Photos, Unsplash y muchas plataformas de fotos de stock.
- Respuesta visual a preguntas (VQA): dada una imagen y una pregunta en lenguaje natural ("¿Cuántas personas hay en esta foto?", "¿De qué color es el coche de la izquierda?"), un VLM puede razonar sobre ambas modalidades de forma conjunta para producir una respuesta. Esto va mucho más allá de la clasificación: requiere entender relaciones espaciales, contar, leer texto en imágenes y más. Cubrimos las arquitecturas de VQA en profundidad en el artículo 6.
- Guiar la generación de imágenes: modelos como DALL-E y Stable Diffusion usan encoders de texto tipo CLIP para condicionar la generación de imágenes a partir de prompts textuales. El embedding del texto le dice al generador de imágenes qué crear. Sin un espacio de embeddings compartido que capture el significado tanto del texto como de las imágenes, la generación de texto a imagen tal como la conocemos no funcionaría.
¿Por Qué No Simplemente Entrenar Más Clasificadores?
El enfoque ingenuo de la visión por computador es: para cada nueva tarea, recolectar datos etiquetados y entrenar un modelo supervisado. ¿Quieres detectar 1.000 categorías de objetos? Recolecta y etiqueta ejemplos de entrenamiento para cada una. ¿Quieres añadir "¿es esta foto segura para el trabajo?"? Más datos, otro clasificador. ¿Necesitas distinguir razas de perros para una app de adopción de mascotas? Más etiquetas, otro modelo.
Este enfoque no escala, por varias razones que se acumulan:
- Coste de etiquetado: la anotación humana es lenta y costosa. ImageNet — el dataset que impulsó una década de investigación en visión por computador — tardó años y millones de dólares en anotar con sus 14 millones de etiquetas. Cada nueva tarea exige una inversión similar, y las etiquetas deben ser de alta calidad o el clasificador aprenderá patrones incorrectos.
- Supuesto de mundo cerrado: un clasificador solo conoce las categorías con las que fue entrenado. Si entrenaste un clasificador de mascotas con gatos, perros y hámsters, y un usuario sube una foto de un pangolín, el modelo no tiene más opción que clasificarlo erróneamente como la categoría entrenada a la que vagamente se parezca. No puede decir "no conozco este animal" — el concepto de pangolín simplemente no existe en su espacio de etiquetas.
- Sin composicionalidad: "coche rojo" y "coche azul" se convierten en clases separadas en lugar de composiciones de color + objeto. ¿Quieres reconocer "coche rojo de noche" y "coche azul bajo la lluvia"? Esas son más clases separadas. El espacio de etiquetas crece combinatoriamente con cada atributo que quieras distinguir, y se deben recolectar datos de entrenamiento para cada combinación.
Los VLMs evitan estos tres problemas. Aprenden de pares imagen-texto extraídos de la web — cientos de millones de ellos, con el texto alternativo y los pies de foto como supervisión gratuita que nunca necesitó un anotador humano. Manejan conceptos de vocabulario abierto : cualquier descripción de texto funciona como una "clase", incluyendo descripciones de objetos que el modelo nunca vio explícitamente durante el entrenamiento, porque el encoder de texto generaliza a partir de su comprensión lingüística. Y componen de forma natural, porque el texto es composicional por naturaleza — la frase "coche rojo de noche" es simplemente una secuencia de tokens, no una nueva categoría que deba registrarse.
Lo Que Viene en Este Track
Este track construye el stack completo de VLMs, desde el alineamiento de bajo nivel entre imagen y texto hasta IA conversacional que puede ver. Aquí está la hoja de ruta:
- Artículo 2 — CLIP: en el artículo 2 nos sumergimos en CLIP, el modelo que demostró que el pre-entrenamiento contrastivo sobre pares imagen-texto podía igualar a clasificadores supervisados entrenados con millones de ejemplos etiquetados. Cubriremos la pérdida contrastiva, la arquitectura de encoder dual y por qué aprende representaciones tan transferibles.
- Artículo 3 — Vision Transformers: en el artículo 3 cubrimos los Vision Transformers (ViT), la arquitectura que convierte imágenes en secuencias de tokens que los transformers pueden procesar — la columna vertebral visual dentro de la mayoría de VLMs modernos.
- Artículo 4 — SigLIP y DINOv2: en el artículo 4 exploramos dos mejoras importantes: SigLIP, que escala el aprendizaje contrastivo a lotes más grandes al reemplazar el softmax con una pérdida sigmoide, y DINOv2, que aprende características visuales potentes sin ninguna supervisión textual.
- Artículo 5 — Fusión Multimodal: en el artículo 5 abordamos el problema de la fusión: ¿cómo se conecta un encoder de visión a un modelo de lenguaje grande para que el LLM pueda "ver"? Cubriremos capas de proyección, atención cruzada y las decisiones arquitectónicas que determinan cómo se combinan la información visual y textual.
- Artículo 6 — Ajuste por Instrucciones Visuales: finalmente, en el artículo 6 cubrimos el ajuste por instrucciones visuales — la receta de entrenamiento que enseña a un LLM a mantener conversaciones abiertas sobre imágenes, responder preguntas visuales y seguir instrucciones complejas que hacen referencia a contenido visual.
Empezaremos con el modelo que lanzó el campo.
Quiz
Pon a prueba tu comprensión de la motivación detrás de los Modelos Visión-Lenguaje.
¿Cuál es el problema central que abordan los VLMs?
¿Qué permite un espacio de embeddings compartido que los modelos separados de imagen y texto no pueden lograr?
¿Por qué la clasificación zero-shot es una ventaja significativa sobre los clasificadores tradicionales?
¿Cuál es la limitación de "mundo cerrado" de los clasificadores tradicionales que los VLMs superan?