Rutas de Aprendizaje
Artículos estructurados sobre LLMs, RAG, modelos multimodales y más. Elige un tema y empieza a explorar.
No se encontraron temas.
Matemáticas Esenciales
Las matemáticas fundamentales del deep learning — funciones de activación, softmax, funciones de pérdida, entropía, divergencia KL y distribuciones de probabilidad — explicadas visualmente con código y gráficos interactivos.
Cheatsheet de PyTorch
De tensores a transistores: disposición en memoria, autograd, la pila de compilación, torch.compile, y cómo tu código Python se convierte en microcódigo GPU.
Arquitectura GPU y CUDA
De transistores a kernels: multiprocesadores de streaming, el modelo de programación CUDA, la pila de software y el modelo roofline para análisis de rendimiento.
Transformers
Del mecanismo de atención a arquitecturas completas de encoder y decoder — cómo los transformers procesan secuencias, por qué existe cada componente, y cómo construir uno desde cero.
NanoGPT Speedrun
Mejoras incrementales que llevan la eficiencia del pre-entrenamiento de GPT a sus límites, del punto de partida al estado del arte en horas.
Fine-tuning
Del fine-tuning completo a LoRA y QLoRA — cómo adaptar modelos fundacionales a tu tarea, construir datasets de instrucciones, entrenar de forma distribuida, evaluar resultados y fusionar modelos.
RLHF y Alineamiento
De la rigidez del SFT al aprendizaje por refuerzo — cómo PPO, DPO y GRPO alinean modelos de lenguaje con preferencias humanas, con fórmulas, implementaciones y el ecosistema TRL de HuggingFace.
Pipelines RAG
De TF-IDF y BM25 a bi-encoders densos, fusión híbrida, rerankers, indexado HNSW y fine-tuning con pérdidas contrastivas — todo lo necesario para construir sistemas RAG de producción.
Optimización de Inferencia
KV-cache, decodificación especulativa, cuantización (GPTQ, AWQ, GGUF), batching continuo y la ingeniería detrás de servir LLMs a escala con baja latencia.
Modelos Visión-Lenguaje
De CLIP a LLaVA: pre-entrenamiento contrastivo, Vision Transformers, SigLIP, DINOv2, fusión multimodal y ajuste por instrucciones visuales.
Modelos Visión-Lenguaje-Acción
VLAs para robótica: anclar lenguaje y visión en políticas motoras, de OpenVLA a la predicción de acciones basada en difusión.
Audio y Modelos Omni
De ondas y transformadas de Fourier a códecs neuronales de audio, síntesis de voz y modelos omni-modales — cómo las máquinas escuchan, hablan y razonan sobre el sonido.
Generación de Imagen y Vídeo
De DDPM a difusión latente, flow matching y Diffusion Transformers — cómo Stable Diffusion, Flux, DALL-E y Sora generan imágenes y vídeo a partir de texto.
Contexto Largo y Memoria
Del muro cuadrático de atención al escalado RoPE, atención dispersa y transformers con memoria — cómo los modelos manejan secuencias largas y recuerdan más allá de la ventana de contexto.
Agentes y Uso de Herramientas
De llamadas a funciones y ReAct a MCP, uso de computadoras y orquestación multiagente — cómo los LLMs pasan de generar texto a ejecutar acciones en el mundo real.