La Idea de la Representación Densa
Representar consultas y documentos como vectores densos donde la proximidad geométrica captura similitud semántica.
BERT: La Fundación Contextual
Cross-encoders procesan consulta y documento juntos para máxima precisión, pero son demasiado lentos para recuperación de primera etapa.
SBERT: Codificando Consulta y Documento por Separado
Bi-encoders codifican consulta y documento de forma independiente, permitiendo precomputar embeddings de documentos y buscar por similitud vectorial.
DPR: Entrenando Bi-Encoders para Recuperación
Entrenar bi-encoders directamente en datos de recuperación con pérdida InfoNCE y negativos dentro del lote (in-batch negatives) mejora sustancialmente el rendimiento frente a SBERT.
¿Cómo Mejoraron los Bi-Encoders Después de DPR?
Mejores datos, entrenamiento multi-etapa (E5), contextos más largos (GTE, BGE), instrucciones prepuestas y modelos LLM como base (E5-mistral-7B).
Quiz
Pon a prueba tu comprensión de la recuperación densa.
¿Por qué no se puede usar un cross-encoder BERT como recuperador de primera etapa sobre millones de documentos?
En la pérdida InfoNCE de DPR, ¿qué sirve como ejemplos negativos para una consulta dada?
El Matryoshka Representation Learning (MRL) te permite: