¿Por Qué RAG? El Problema de la Recuperación

El Problema del Conocimiento

El conocimiento de un modelo de lenguaje queda congelado en el momento del entrenamiento. Pregúntale por las noticias de la semana pasada y no podrá responder por sí solo (sin RAG o acceso a internet), ya que probablemente fue entrenado hace meses. Pregúntale por la documentación interna de tu empresa y casi con certeza nunca la ha visto. Todo lo que el modelo sabe está codificado en sus pesos, y esos pesos dejaron de actualizarse cuando terminó el entrenamiento.

Esto causa dos problemas que se refuerzan mutuamente: obsolescencia (el mundo cambia más rápido de lo que se reentrenan los modelos) y alucinación (cuando se le pregunta por algo fuera de sus datos de entrenamiento, el modelo puede generar una respuesta confiada, fluida y completamente incorrecta, porque durante el pre-entrenamiento fue incentivado a predecir continuaciones plausibles para cada oración que se le presentó, y no fue lo suficientemente penalizado por no decir "no sé" cuando la respuesta plausible resulta ser errónea).

Entonces, ¿cómo le damos al modelo acceso a conocimiento que no estaba en sus datos de entrenamiento, o que ha cambiado desde entonces? La Generación Aumentada con Recuperación (RAG) (Lewis et al., 2020) añade un paso de recuperación antes de la generación. En lugar de depender solo de sus pesos, el modelo primero recupera documentos relevantes de un corpus externo, y luego genera una respuesta basada en esos documentos. El conocimiento vive en un corpus que puede cambiarse o actualizarse sin reentrenar.

💡 El paper original de RAG (Lewis et al., 2020) mostró que los modelos con recuperación superan a los puramente paramétricos en QA de dominio abierto, siendo además mucho más fáciles de actualizar: cambia el corpus, sin reentrenar.

¿Cómo Encontramos los Documentos Correctos?

Si la idea es buscar documentos relevantes antes de responder, la pregunta inmediata es: ¿cómo? Dada una consulta $q$ y un corpus $\mathcal{D} = \{d_1, \ldots, d_N\}$ de $N$ documentos, necesitamos una función de puntuación $\mathcal{R}(q, \mathcal{D})$ que ordene nuestros documentos por relevancia y devuelva los $k$ más relevantes (siendo $k$ un hiperparámetro que puedes configurar en cualquier momento):

\mathcal{R}(q, \mathcal{D}) = \underset{d \in \mathcal{D}}{\text{top-}k} \; \text{score}(q, d)

Todo el track trata sobre cómo construir mejores versiones de $\text{score}(q, d)$. Empezaremos simple e iremos construyendo:

Métodos dispersos / léxicos: en el artículo 2, comenzamos puntuando por coincidencia de palabras (TF-IDF, BM25). Rápido e interpretable, pero solo coincide con palabras exactas.
Métodos densos / semánticos: en los artículos 3–4, pasamos a codificar consultas y documentos como vectores con redes neuronales ($\text{score}(q, d) = E_Q(q)^\top E_D(d)$). Captura paráfrasis y significado, pero requiere datos de entrenamiento y más cómputo.
Híbrido: en el artículo 5, exploramos la combinación de puntuaciones dispersas y densas para obtener los beneficios de ambos.
Reranking: finalmente en el artículo 6, reordenamos un conjunto pequeño de candidatos usando un modelo más costoso con atención completa consulta-documento.

Hay un problema de escala. Con $N = 10^7$ documentos, no puedes calcular $\text{score}(q, d)$ para cada $d$ en tiempo de consulta. Necesitas formas de reducir candidatos de forma barata antes de aplicar la puntuación costosa. Los sistemas de recuperación manejan esto computando y almacenando representaciones de documentos por adelantado (precomputación), organizándolas para búsqueda rápida (indexación), y usando algoritmos de vecinos más cercanos aproximados que revisan solo una fracción del corpus por consulta, todo lo cual cubriremos en el artículo 7.

¿Por Qué No Simplemente Hacer Fine-Tuning?

Si los modelos tienen problemas con el conocimiento factual, ¿por qué no simplemente hacer fine-tuning con los documentos correctos? Funciona en algunos casos, pero se topa con problemas prácticos que RAG evita:

Olvido catastrófico: al hacer fine-tuning con nuevos documentos, las actualizaciones de gradiente acercan los pesos a los nuevos ejemplos y los alejan de todo lo que no está en el lote actual. Sin un muestreo cuidadoso de repetición (mezclar datos antiguos y nuevos a lo largo del entrenamiento), el modelo degrada el conocimiento previo. A escala, esto es costoso de gestionar.
Requisitos de frecuencia: los hechos deben aparecer muchas veces en el corpus de entrenamiento para quedar codificados de forma fiable en los pesos. Un único documento, por importante que sea, raramente perdura.
Iteración costosa: reentrenar o hacer fine-tuning es lento y caro. RAG permite actualizar el conocimiento cambiando el corpus, evitando ciclos de entrenamiento con todo lo que conllevan (búsqueda de hiperparámetros, etc.). En dominios que evolucionan rápido, esta diferencia es decisiva.
Atribución: los documentos recuperados son contexto explícito. Puedes mostrar al usuario exactamente qué pasaje sustentó la respuesta. Los modelos puramente paramétricos, sin embargo, no tienen un mecanismo para esto (no hay un pasaje fuente al que apuntar).

En la práctica, RAG tiende a funcionar mejor para hechos, mientras que fine-tuning funciona mejor para habilidades. Enseñar a un modelo un nuevo formato de salida, un estilo de razonamiento de dominio o una API de herramientas son cambios conductuales que se benefician del fine-tuning (hábitos a instaurar, no hechos a recuperar). Los mejores sistemas en producción tienden a combinar ambos: un modelo con fine-tuning que sabe cómo razonar, junto con un pipeline RAG que provee sobre qué razonar.

Cómo Encaja un Pipeline RAG

Juntando todo, un sistema RAG tiene dos fases que corren a velocidades muy distintas:

Offline (tiempo de indexado): fragmentar el corpus en pasajes, codificar cada pasaje en un vector y almacenarlo en un índice. Ocurre una vez (se actualiza al cambiar el corpus) y puede permitirse ser lento (segundos por documento).
Online (tiempo de consulta): codificar la consulta del usuario, buscar en el índice los $k$ pasajes más cercanos mediante búsqueda aproximada, ensamblar el contexto y generar. Esta fase debe ser rápida, ya que se ejecuta en cada petición del usuario.

Esta separación existe porque la codificación de documentos es costosa pero solo necesita hacerse una vez, mientras que la codificación de consultas debe ser barata porque ocurre en cada petición. El compromiso: si actualizas documentos pero no re-indexas, el índice queda desincronizado (devolviendo pasajes obsoletos o faltantes hasta que reconstruyas o actualices incrementalmente, un reto práctico cubierto en el artículo 7).

En código, las dos fases se ven así:

# ── Offline (run once, update on corpus changes) ──────────────────────
chunks   = chunk_documents(corpus)          # split docs into passages
vectors  = encoder.encode(chunks)           # one vector per passage
index.add(vectors, metadata=chunks)        # store in ANN index (HNSW etc.)

# ── Online (per query, must be fast) ──────────────────────────────────
q_vec    = encoder.encode(query)            # encode user query
results  = index.search(q_vec, top_k=20)   # ANN search

# Optional: rerank, filter, deduplicate
results  = reranker.rerank(query, results, top_k=5)

context  = format_context(results)         # build prompt context
answer   = llm.generate(query, context)    # grounded generation

Observa la línea 6 del fragmento anterior: index.search(q_vec, top_k=20) . ¿Cómo decide el índice cuáles 20 pasajes son los más cercanos? Eso depende enteramente de cómo los puntuamos. El siguiente artículo comienza con la idea de puntuación más simple (contar coincidencias de palabras) y construye hasta TF-IDF y BM25, las fórmulas detrás de prácticamente todos los motores de búsqueda antes de que la recuperación neuronal tomara el relevo.

Quiz

Pon a prueba tu comprensión de los fundamentos de RAG.

¿Qué limitación fundamental aborda RAG que el fine-tuning no puede resolver?

Los modelos con fine-tuning son más lentos en inferencia

El fine-tuning codifica conocimiento en pesos congelados; RAG permite actualizar el conocimiento sin reentrenar

Los modelos con fine-tuning no pueden seguir instrucciones

Los modelos RAG son siempre más grandes

En la tarea de recuperación, ¿a qué se refiere top-k?

Los k tokens con los mayores pesos de atención

Los k documentos con la mayor score(q, d) para la consulta q

Los k términos más frecuentes en el corpus

Las k palabras más cercanas en el vocabulario

¿Por qué un sistema RAG se divide en fases offline y online?

Permite que diferentes equipos trabajen en codificación y recuperación por separado

La costosa codificación de documentos ocurre offline para que la recuperación en tiempo de consulta sea rápida

El índice offline se usa para entrenamiento y el online para servicio

Evita que el modelo vea el corpus durante el entrenamiento

¿Cuándo elegiría fine-tuning sobre RAG?

Cuando necesita actualizar hechos sin reentrenar

Cuando necesita mejorar el estilo de razonamiento, formato de salida o habilidades específicas del dominio

Cuando necesita atribución a documentos fuente

Cuando el corpus es demasiado grande para hacer fine-tuning