Recuperación Dispersa: TF-IDF, BM25 y SPLADE

TF-IDF: Ponderando lo que Importa

Empecemos con una de las ideas de recuperación más simples: contar cuántas veces aparece cada palabra de la consulta en cada documento y devolver el documento con mayor coincidencia. Digamos que tenemos un corpus de artículos de machine learning y un usuario busca "transformer attention". ¿Elegimos el documento que coincide con más palabras distintas de la consulta, o el que coincide con menos palabras pero aparecen más a menudo? ¿Y qué pasa con palabras de bajo valor como "el" o "de" — deberían contar? TF-IDF responde a cada una de estas preguntas combinando dos señales.

La primera señal maneja la repetición. Si "transformer" aparece 10 veces en un artículo y una vez en otro, el primero probablemente trata más sobre transformers. Eso es la Frecuencia de Término (TF). Los conteos brutos funcionan en principio, pero un documento que repite una palabra 10 veces no es 10× más relevante que uno que la dice una vez, así que la mayoría de implementaciones aplican escala logarítmica para aplanar los valores extremos:

\text{TF}(t, d) = 1 + \log(1 + \text{count}(t, d))

💡 ¿Por qué $1 + \log(1 + \text{count})$ y no simplemente $\text{count}$? El $1+$ interior evita $\log(0)$ cuando el conteo es cero. El $\log$ comprime la escala: una palabra que aparece 10 veces puntúa $1 + \log(11) \approx 3.4$, no 10, así que la repetición ayuda pero con rendimientos rápidamente decrecientes. Y el $1+$ exterior asegura que una palabra que aparece al menos una vez siempre puntúe por encima de 1 (en vez de algún valor fraccionario pequeño del logaritmo), dándole un impulso claro sobre cero.

Pero la frecuencia por sí sola no resuelve el problema de "el". Palabras como "el", "es" y "de" aparecen en prácticamente todos los documentos, así que coincidir en ellas no dice nada sobre qué hace especial a un documento. Lo que realmente queremos es impulsar palabras que son raras en el corpus — palabras que distinguen un documento del resto. Eso es la Frecuencia Inversa de Documento (IDF), donde $N$ es el número total de documentos y $\text{df}(t)$ cuenta cuántos contienen el término $t$:

\text{IDF}(t) = \log \frac{N}{1 + \text{df}(t)}

Multiplica TF por IDF y obtienes un peso que es alto cuando un término aparece a menudo en este documento particular pero raramente en el corpus. "El" queda aplastado (aparece en todos los documentos, así que IDF es casi cero). "Transformer" en un corpus de machine learning queda impulsado (aparece en una fracción pequeña de documentos). Exactamente la señal que queremos.

Para puntuar una consulta contra un documento, representamos ambos como vectores sobre el vocabulario completo — un peso por palabra, cero para las ausentes — y calculamos el producto punto:

\text{score}(q, d) = \sum_{t \in q \cap d} \text{TF-IDF}(t, q) \cdot \text{TF-IDF}(t, d)

La suma solo recorre palabras presentes en ambos. La mayoría de palabras no aparece en ninguno, así que estos vectores son extremadamente dispersos. Esa dispersidad es lo que hace rápido a TF-IDF: un índice invertido mapea cada palabra a la lista de documentos que la contienen, así que puntuar una consulta solo toca las listas de postings de sus términos, no cada documento del corpus.

Para verlo concreto, el código a continuación calcula TF, IDF y la puntuación TF-IDF final para cada palabra en un corpus pequeño. Observa cómo "the" (presente en todos los documentos) obtiene un IDF cercano a cero, mientras que "transformer" (presente en uno) obtiene un IDF alto y domina la puntuación final.

import math, json, js
from collections import Counter

corpus = [
    "the transformer model uses the attention mechanism",
    "the neural network is trained on the data",
    "transformer architectures revolutionised NLP",
]
query = "transformer attention"

def tokenize(text):
    return text.lower().split()

N = len(corpus)
all_tokens = [tokenize(d) for d in corpus]

# Compute df for each term
df = {}
for doc_tokens in all_tokens:
    for t in set(doc_tokens):
        df[t] = df.get(t, 0) + 1

# Show TF, IDF, TF-IDF for query terms + "the" in Doc 1
doc_tokens = all_tokens[0]
tf_counts = Counter(doc_tokens)

terms = tokenize(query) + ["the"]
rows = []
for t in terms:
    count = tf_counts.get(t, 0)
    tf_val = 1 + math.log(1 + count) if count > 0 else 0
    df_val = df.get(t, 0)
    idf_val = math.log(N / (1 + df_val))
    tfidf = tf_val * idf_val
    rows.append([t, str(count), f"{tf_val:.3f}", str(df_val), f"{idf_val:.3f}", f"{tfidf:.3f}"])

js.window.py_table_data = json.dumps({
    "headers": ["Term", "Count", "TF", "df", "IDF", "TF*IDF"],
    "rows": rows
})

print(f"Corpus size N = {N}")
print(f"Query: '{query}'")
print(f"Doc 1: '{corpus[0]}'")
print()
print("'the' appears twice but in all 3 docs => IDF crushes its weight")
print("'transformer' appears once but only in 2 docs => higher IDF, higher final score")

Observa que la suma solo recorre palabras presentes tanto en la consulta como en el documento. La mayoría de palabras no aparece en ninguno, así que estos vectores son extremadamente dispersos. Esa dispersidad es lo que hace rápida la recuperación, porque podemos usar un índice invertido : en lugar de almacenar documento → palabras (un índice normal), lo invertimos a palabra → documentos. Cuando llega una consulta, solo consultamos las listas de postings de sus términos.

import json, js
from collections import defaultdict

# Normal index: each document maps to its words
normal = {
    "doc_1": ["transformer", "attention", "encoder"],
    "doc_2": ["gradient", "descent", "loss"],
    "doc_3": ["attention", "softmax", "decoder"],
    "doc_4": ["tokenizer", "vocabulary", "subword"],
    "doc_5": ["loss", "cross", "entropy"],
}

# Inverted index: each word maps to its documents
inverted = defaultdict(list)
for doc, words in normal.items():
    for w in words:
        inverted[w].append(doc)

# Build table
rows = []
for term, docs in sorted(inverted.items()):
    rows.append([term, ", ".join(docs)])

js.window.py_table_data = json.dumps({
    "headers": ["Term", "Posting List (documents)"],
    "rows": rows
})

# Query "attention decoder" → only 2 posting lists
query_terms = ["attention", "decoder"]
candidates = set()
for t in query_terms:
    candidates.update(inverted.get(t, []))
print(f"Query 'attention decoder'")
print(f"  Candidates: {sorted(candidates)}")
print(f"  Skipped:    {sorted(set(normal) - candidates)}")

💡 Un vocabulario de 100,000 términos significa que cada vector de documento tiene 100,000 dimensiones, pero típicamente menos de 200 son distintas de cero. El álgebra dispersa es lo que hace que TF-IDF sea rápido a escala.

BM25: Saturación y Normalización por Longitud

TF-IDF funciona, pero en un corpus real dos problemas se hacen evidentes. Primero, la frecuencia de términos crece sin límite: un documento que menciona "transformer" muchas veces puntúa mucho más alto que uno que lo menciona una vez, aunque probablemente no sea tanto más relevante. El logaritmo en TF lo amortigua, pero no lo suficiente. Segundo, los documentos largos acumulan más palabras y tienden a puntuar más alto simplemente por ser más largos — un documento legal de 10,000 palabras superará a un resumen de 200 palabras en casi cualquier consulta, incluso cuando el resumen es más pertinente.

BM25 (Best Match 25) (Robertson et al., 1994) corrige ambos problemas en una sola fórmula:

\text{BM25}(q, d) = \sum_{t \in q} \text{IDF}(t) \cdot \frac{\text{count}(t,d) \cdot (k_1 + 1)}{\text{count}(t,d) + k_1 \cdot \left(1 - b + b \cdot \frac{|d|}{\text{avgdl}}\right)}

Dos parámetros controlan la corrección:

$k_1 \in [1.2, 2.0]$ pone un techo a la frecuencia de términos. A medida que count$(t,d)$ crece, la puntuación se acerca a un techo finito de $(k_1 + 1) \cdot \text{IDF}(t)$ en lugar de subir indefinidamente. Mencionar "transformer" 10 veces apenas ayuda más que mencionarlo 3 veces. Esa es la saturación que le faltaba a TF-IDF.
$b \in [0, 1]$ penaliza la longitud. El denominador divide la longitud del documento $|d|$ por el promedio del corpus $\text{avgdl}$. Con $b=0.75$ (el valor por defecto), un documento el doble de largo que el promedio necesita coincidencias proporcionalmente más fuertes para puntuar igual que uno más corto. Con $b=0$, se ignora la longitud por completo.

Para verlo en acción: toma un documento legal de 10,000 palabras y un resumen de 200, ambos mencionando el término de consulta dos veces. Sin normalización por longitud, TF-IDF los trata igual (mismo conteo bruto). Con $b=0.75$, BM25 reduce la puntuación del documento legal porque dos menciones en 10,000 palabras es mucho menos concentrado que dos menciones en 200.

BM25 sigue siendo la línea base dispersa dominante. Elasticsearch y OpenSearch lo usan por defecto. Cuando la gente dice "búsqueda por palabras clave", casi siempre se refiere a BM25. El código a continuación compara las puntuaciones de BM25 y TF-IDF en un corpus pequeño para ver cómo la saturación y la normalización por longitud cambian el ranking.

import math, json
import js

# ---- BM25 implementation ----
def tokenize(text):
    return text.lower().split()

def build_idf(corpus):
    N = len(corpus)
    df = {}
    for doc in corpus:
        for t in set(tokenize(doc)):
            df[t] = df.get(t, 0) + 1
    return {t: math.log((N - n + 0.5) / (n + 0.5) + 1) for t, n in df.items()}

def bm25_score(query, doc, idf, avgdl, k1=1.5, b=0.75):
    tokens = tokenize(doc)
    dl = len(tokens)
    tf = {}
    for t in tokens:
        tf[t] = tf.get(t, 0) + 1
    score = 0.0
    for t in set(tokenize(query)):
        if t not in idf:
            continue
        f = tf.get(t, 0)
        score += idf[t] * (f * (k1 + 1)) / (f + k1 * (1 - b + b * dl / avgdl))
    return score

def tfidf_score(query, doc, idf):
    tokens = tokenize(doc)
    tf = {}
    for t in tokens:
        tf[t] = tf.get(t, 0) + 1
    # Log-normalised TF
    score = 0.0
    for t in set(tokenize(query)):
        if t not in idf or t not in tf:
            continue
        score += (1 + math.log(1 + tf[t])) * idf[t]
    return score

corpus = [
    "BM25 uses term frequency saturation and length normalisation",
    "TF-IDF weighs terms by how rare they are across the corpus",
    "neural networks learn dense vector representations for retrieval",
    "the inverted index enables fast sparse retrieval over large corpora",
    "BM25 is the standard baseline for sparse retrieval in information retrieval",
    "length normalisation in BM25 prevents long documents from dominating",
    "TF-IDF and BM25 both rely on an inverted index for efficiency",
    "sparse retrieval methods match exact keywords in query and document",
]

query = "BM25 sparse retrieval length normalisation"
idf = build_idf(corpus)
avgdl = sum(len(tokenize(d)) for d in corpus) / len(corpus)

bm25_scores  = [bm25_score(query, d, idf, avgdl) for d in corpus]
tfidf_scores = [tfidf_score(query, d, idf) for d in corpus]

labels = [f"Doc {i+1}" for i in range(len(corpus))]

plot_data = [
    {
        "title": "BM25 vs TF-IDF Scores",
        "x_label": "Document",
        "y_label": "Score",
        "x_data": labels,
        "lines": [
            {"label": "BM25",    "data": [round(s, 3) for s in bm25_scores],  "color": "#3b82f6"},
            {"label": "TF-IDF",  "data": [round(s, 3) for s in tfidf_scores], "color": "#f59e0b"},
        ]
    }
]
js.window.py_plot_data = json.dumps(plot_data)

El Problema de Incompatibilidad Vocabular

Todos los métodos que hemos visto comparten un punto ciego: solo encuentran documentos que usan las mismas palabras exactas que la consulta. Busca "paro cardíaco" y BM25 no devuelve nada si todos los documentos relevantes dicen "ataque al corazón". La fórmula de puntuación podría ser perfecta y no importaría — cero términos compartidos significa puntuación cero.

Este problema de incompatibilidad vocabular aparece en varias formas:

Sinonimia: "automóvil" vs "carro", "comenzar" vs "iniciar" — mismo concepto, diferente forma superficial.
Paráfrasis: "¿Cómo funciona un transformer?" no encuentra documentos titulados "Mecanismo de auto-atención explicado".
Variación morfológica: Sin stemming, "corriendo" no encuentra "corrió" o "corre".

Hay soluciones manuales: diccionarios de sinónimos, stemming ("corriendo" → "corr"), o retroalimentación por pseudo-relevancia (tomar los primeros resultados, extraer sus términos clave, relanzar la consulta con esos términos). Ayudan, pero son frágiles — las listas de sinónimos se desactualizan, el stemming falla con vocabulario técnico ("transformer" el modelo vs "transformador" el dispositivo eléctrico), y los ciclos de retroalimentación pueden amplificar ruido de malos resultados iniciales.

SPLADE: Aprendiendo Representaciones Dispersas

¿Y si, en vez de construir listas de sinónimos a mano, entrenáramos un modelo para expandir el vocabulario automáticamente? Dada la consulta "paro cardíaco", ¿podría una red neuronal aprender a activar también "corazón", "ataque", "coronario", "miocardio" — añadiendo sinónimos aprendidos de datos, sin que nadie escriba un diccionario?

Eso es lo que hace SPLADE (Formal et al., 2021) . Reutiliza la cabeza de modelo de lenguaje enmascarado (MLM) de BERT — la parte que predice qué palabra debe llenar un slot [MASK]. Para cada posición de token $i$ en la entrada, la cabeza MLM produce una puntuación $h_{ij}$ para cada palabra $j$ del vocabulario. SPLADE toma el máximo entre posiciones y aplica saturación logarítmica:

w_j(d) = \log\!\left(1 + \text{ReLU}\left(\max_{i} \, h_{ij}\right)\right)

El máximo entre posiciones selecciona la señal más fuerte para cada término del vocabulario. ReLU asegura que no haya pesos negativos. Y el $\log(1 + \cdot)$ aplica la misma idea de saturación que vimos en BM25: rendimientos decrecientes para activaciones muy fuertes, evitando que un solo término domine la puntuación.

El resultado es un vector sobre el vocabulario donde términos relacionados se activan aunque nunca aparecieran en el texto original. Para "paro cardíaco", el modelo puede asignar pesos altos a "corazón", "ataque", "coronario" y "miocardio" — todo aprendido de los datos de entrenamiento, sin diccionario.

Pero hay un problema. Sin restricciones, el modelo tiende a activar casi todos los términos del vocabulario en algún grado — los vectores dejan de ser dispersos. Y necesitamos la dispersidad, porque los vectores dispersos son los que nos permiten usar la misma infraestructura de índice invertido que hace rápido a BM25. SPLADE impone dispersidad con un término de regularización FLOPS en la pérdida de entrenamiento:

\mathcal{L}_{\text{FLOPS}} = \lambda \sum_{j} \left(\frac{1}{|\mathcal{B}|} \sum_{d \in \mathcal{B}} w_j(d)\right)^2

Este término se añade a la pérdida contrastiva principal de entrenamiento (que enseña al modelo a puntuar pares consulta-documento relevantes por encima de los irrelevantes). La pérdida combinada es $\mathcal{L} = \mathcal{L}_{\text{contrastive}} + \mathcal{L}_{\text{FLOPS}}$. Sin el término FLOPS, el modelo aprendería buenas puntuaciones de relevancia pero produciría vectores densos; con él, el modelo es empujado a mantener las activaciones dispersas — solo activando términos del vocabulario que genuinamente importan para un documento dado. El hiperparámetro $\lambda$ controla este balance: mayor $\lambda$ significa vectores más dispersos (recuperación más rápida, pero potencialmente menos expansión de vocabulario).

¿Por qué "FLOPS"? El número de operaciones de punto flotante durante la búsqueda en el índice es proporcional a cuántos términos no nulos se solapan entre los vectores de consulta y documento. Vectores más dispersos se intersectan en menos términos, así que reducir la activación promedio reduce directamente el costo de búsqueda.

En tiempo de recuperación, SPLADE funciona exactamente como BM25: vectores dispersos almacenados en un índice invertido, puntuados con un producto punto sobre términos compartidos. La diferencia es que "términos compartidos" ahora incluye palabras que ni la consulta original ni el documento contenían — el modelo las añadió.

💡 SPLADE-v2 (Formal et al., 2022) divide el modelo para que la expansión de vocabulario ocurra solo en tiempo de consulta, manteniendo la construcción del índice ligera. Esto importa en producción porque recodificar millones de documentos cada vez que actualizas el modelo es costoso.

Quiz

Pon a prueba tu comprensión de los métodos de recuperación dispersa.

En BM25, ¿qué controla el parámetro $k_1$?

La fuerza de normalización por longitud

El techo de saturación de la frecuencia de términos

El suavizado de la frecuencia inversa de documento

El umbral mínimo de frecuencia de documento

¿Por qué BM25 supera a TF-IDF en documentos largos?

Usa un vocabulario más grande

Aplica embeddings de redes neuronales

Normaliza las puntuaciones por la longitud del documento relativa al promedio del corpus

Ignora automáticamente las palabras vacías

Una consulta por "eficiencia de combustible del automóvil" no devuelve resultados porque los documentos usan el término "consumo del carro". Esto es un ejemplo de:

Saturación de puntuación TF-IDF

Incompatibilidad vocabular

Normalización por longitud insuficiente

Corrupción del índice invertido

¿Qué propiedad clave permite que los vectores SPLADE se usen con un índice invertido estándar?

Los vectores SPLADE son densos y de alta dimensión

SPLADE usa la misma fórmula IDF que BM25

Los vectores SPLADE son dispersos, con la mayoría de los pesos del vocabulario en cero

SPLADE no requiere ningún dato de entrenamiento

¿Qué penaliza el término de regularización FLOPS en SPLADE?

Términos del vocabulario con puntajes IDF altos

Términos que aparecen en documentos muy largos

Términos del vocabulario que se activan frecuentemente en muchos documentos de un lote

El número total de términos del vocabulario en el modelo