La Idea de la Representación Densa

Representar consultas y documentos como vectores densos donde la proximidad geométrica captura similitud semántica.

BERT: La Fundación Contextual

Cross-encoders procesan consulta y documento juntos para máxima precisión, pero son demasiado lentos para recuperación de primera etapa.

SBERT: Codificando Consulta y Documento por Separado

Bi-encoders codifican consulta y documento de forma independiente, permitiendo precomputar embeddings de documentos y buscar por similitud vectorial.

DPR: Entrenando Bi-Encoders para Recuperación

Entrenar bi-encoders directamente en datos de recuperación con pérdida InfoNCE y negativos dentro del lote (in-batch negatives) mejora sustancialmente el rendimiento frente a SBERT.

¿Cómo Mejoraron los Bi-Encoders Después de DPR?

Mejores datos, entrenamiento multi-etapa (E5), contextos más largos (GTE, BGE), instrucciones prepuestas y modelos LLM como base (E5-mistral-7B).

Quiz

Pon a prueba tu comprensión de la recuperación densa.

¿Por qué no se puede usar un cross-encoder BERT como recuperador de primera etapa sobre millones de documentos?

En la pérdida InfoNCE de DPR, ¿qué sirve como ejemplos negativos para una consulta dada?

El Matryoshka Representation Learning (MRL) te permite: