TTS como modelado de lenguaje
¿Cómo conviertes texto en una voz humana? La respuesta tradicional era un pipeline largo y frágil: convertir texto a fonemas (símbolos de pronunciación), predecir características acústicas (duración, tono, energía) para cada fonema, alimentarlas en un vocoder (un módulo de procesamiento de señales que sintetiza una forma de onda) y finalmente producir audio. Cada etapa tenía su propio modelo, sus propios datos de entrenamiento y sus propios modos de fallo. Si el conversor de fonemas pronunciaba mal un nombre, todas las etapas posteriores reproducían fielmente ese error. Si el modelo de duración pausaba en el lugar equivocado, el vocoder no podía arreglarlo.
La idea moderna es desarmantemente simple: tratar TTS como un problema de modelado de lenguaje. Ya tenemos transformers autorregresivos que predicen el siguiente token de texto dados los tokens anteriores. ¿Qué pasaría si alimentáramos tokens de texto y le pidiéramos al modelo que predijera tokens de audio en su lugar? Todo el pipeline de múltiples etapas colapsa en un solo modelo de secuencia a secuencia.
VALL-E (Wang et al., 2023) demostró esta idea a escala. La configuración: tomar una secuencia de fonemas más un prompt de audio de 3 segundos (la voz que queremos clonar), y generar tokens de EnCodec que un decodificador de codec neuronal convierte de vuelta en forma de onda. VALL-E usa dos modelos trabajando juntos:
- Modelo AR (estructura gruesa): un transformer autorregresivo genera el primer nivel de RVQ token por token. Este nivel captura el contenido fonético amplio, la prosodia y la identidad del hablante — el esqueleto de la expresión.
- Modelo NAR (detalle fino): un transformer no autorregresivo toma los tokens del primer nivel y predice todos los niveles de RVQ restantes en paralelo. Estos niveles añaden detalle espectral, textura y contenido de alta frecuencia — la carne sobre el esqueleto.
La clave de la calidad de VALL-E fue la escala: fue entrenado con 60,000 horas de habla en inglés del dataset LibriLight — aproximadamente 100 veces más datos que los sistemas TTS anteriores como Tacotron 2 (que usaba ~25 horas). Esta escala masiva permitió una capacidad sorprendente: clonación de voz con 3 segundos. Dale a VALL-E solo 3 segundos de la voz de alguien como prompt, y puede generar nuevo habla en esa voz con timbre, acento y estilo de habla coincidentes. Sin ajuste fino, sin entrenamiento por hablante — solo 3 segundos de audio en tiempo de inferencia.
Generación paralela: SoundStorm y más allá
La generación autorregresiva tiene un problema fundamental de velocidad. Los codecs de audio neuronales como EnCodec típicamente producen tokens a aproximadamente 75 tokens por segundo por nivel de RVQ, y con 8 niveles eso son 600 tokens por segundo. Generar 30 segundos de audio significa producir 18,000 tokens secuencialmente — cada uno esperando al anterior. Incluso en hardware rápido, esto hace difícil el streaming en tiempo real.
SoundStorm (Borsos et al., 2023) atacó este problema de frente con generación completamente no autorregresiva y paralela. La arquitectura funciona en dos etapas:
- Entrada: tokens semánticos de AudioLM (un modelo separado que captura contenido de habla de alto nivel). Estos sirven como el andamiaje de «significado».
- Generación: SoundStorm usa un esquema de decodificación iterativa estilo MaskGIT. En cada nivel de RVQ, predice TODOS los tokens simultáneamente, mantiene los que tienen mayor confianza, enmascara el resto y re-predice. Esto se repite por unas pocas iteraciones, luego pasa al siguiente nivel de RVQ (de grueso a fino).
El resultado: 100 veces más rápido que el enfoque autorregresivo de AudioLM. SoundStorm genera 30 segundos de audio en aproximadamente 0.5 segundos en un TPU-v4. La calidad iguala a AudioLM en naturalidad del habla y benchmarks de preservación del hablante, mientras que la velocidad hace práctica la generación en tiempo real e incluso más rápida que el tiempo real.
Aproximadamente al mismo tiempo, la comunidad de código abierto produjo Bark (Suno, 2023): un pipeline GPT de 3 etapas que genera tokens de texto, luego tokens semánticos, luego tokens acústicos gruesos, luego tokens acústicos finos. Bark es notable por dos razones. Primero, es completamente de código abierto (licencia MIT). Segundo, puede generar sonidos no verbales junto con el habla — puedes escribir [laughs], [music] o [sighs] en el texto de entrada y Bark producirá el audio correspondiente. Esto insinuaba un futuro donde los sistemas TTS manejan no solo palabras sino la expresividad completa de la comunicación humana.
Flow matching para habla
Tanto VALL-E como SoundStorm generan tokens discretos — cuantizan el audio en entradas de codebook y predicen esas entradas. Pero, ¿qué pasaría si nos saltáramos el paso de tokenización por completo y generáramos representaciones de audio continuas directamente? Esta es la idea detrás del flow matching aplicado a la síntesis de voz.
F5-TTS (Chen et al., 2024) usa flow matching para generar espectrogramas mel directamente a partir de texto. La idea central: aprender un campo vectorial que transporte muestras desde ruido puro hasta un espectrograma mel de habla limpio a lo largo de un camino en línea recta. En tiempo de entrenamiento, definimos la interpolación:
donde $\epsilon \sim \mathcal{N}(0, I)$ es ruido Gaussiano, $x_0$ es el espectrograma mel objetivo, y $t \in [0, 1]$ es el paso temporal. Verifiquemos los límites. En $t = 0$: $\hat{x}_0 = (1 - 0) \cdot \epsilon + 0 \cdot x_0 = \epsilon$, que es ruido puro — sin información de habla en absoluto. En $t = 1$: $\hat{x}_1 = (1 - 1) \cdot \epsilon + 1 \cdot x_0 = x_0$, que es el espectrograma mel limpio — el habla que queremos. En $t = 0.5$: $\hat{x}_{0.5} = 0.5 \cdot \epsilon + 0.5 \cdot x_0$, una mezcla igual de ruido y habla. El modelo aprende a empujar las muestras a lo largo de este camino en línea recta desde el ruido hasta el habla.
La red neuronal $v_\theta(\hat{x}_t, t)$ se entrena para predecir la velocidad (dirección y magnitud) necesaria para moverse a lo largo de este camino. La velocidad objetivo es constante y se calcula trivialmente:
Esto es simplemente el vector del ruido a los datos — una sola dirección, constante a través del tiempo. La pérdida de entrenamiento es el error cuadrático medio entre las velocidades predichas y las objetivo:
En inferencia, comenzamos desde ruido puro $\hat{x}_0 = \epsilon$ e integramos el campo de velocidad aprendido hacia adelante usando un solver de ODE (por ejemplo, pasos de Euler) para llegar a $\hat{x}_1 \approx x_0$, el espectrograma mel generado. Debido a que los caminos son líneas rectas, necesitamos muchos menos pasos de integración que los modelos de difusión (típicamente 16-32 pasos vs 50-100 para DDPM).
Lo que hace notable a F5-TTS es su simplicidad. No requiere conversión de fonemas (entrada de texto crudo), modelo de duración (sin alineamiento explícito entre texto y audio), ni codificador de texto separado . El truco: rellenar el texto de entrada con tokens de relleno para igualar la longitud esperada del habla, concatenarlo con el espectrograma mel ruidoso, y dejar que el modelo descubra el alineamiento durante el proceso de eliminación de ruido. El resultado es un factor de tiempo real de 0.15 — genera 1 segundo de habla en solo 0.15 segundos.
La explosión de TTS en 2025
Para 2025, las ideas de VALL-E, SoundStorm y F5-TTS se habían difundido por el campo, y la investigación en TTS explotó. Docenas de sistemas aparecieron, cada uno empujando diferentes fronteras: menor latencia, modelos más pequeños, salidas más largas, control expresivo más fino. Estos son los sistemas más significativos y lo que cada uno contribuyó:
Orpheus TTS (Canopy AI, 2025) tomó el enfoque más simple posible: ajustar un modelo de lenguaje Llama 3B para predecir tokens de audio SNAC en lugar de tokens de texto. Sin cambios arquitectónicos — solo un modelo de lenguaje haciendo lo que mejor sabe, excepto que el vocabulario de salida incluye códigos de audio. Con 200ms de latencia en streaming y etiquetas de control emotivo (puedes escribir <laugh> o <sigh> en la entrada), Orpheus demostró que la tesis de «TTS como modelado de lenguaje» podía ejecutarse con LLMs estándar. Publicado bajo Apache 2.0.
Sesame CSM (Sesame AI, marzo 2025) introdujo habla conversacional consciente del contexto. La mayoría de los sistemas TTS generan cada expresión de forma aislada. CSM condiciona en turnos de diálogo previos — tanto texto como audio — para que el habla generada sea contextualmente apropiada. Si el hablante anterior sonaba emocionado, la respuesta de CSM lleva una energía similar. Este fue el primer sistema en tratar TTS como un problema de diálogo en lugar de un problema de oraciones aisladas.
VibeVoice (Microsoft, agosto 2025) combinó predicción del siguiente token con difusión de forma novedosa: el modelo de lenguaje predice un token grueso, luego una cabeza de difusión liviana lo refina en una trama de audio detallada. La innovación clave fue una tasa de tramas ultra-baja de 7.5 Hz — solo 7.5 tramas de audio por segundo, comparado con las típicas 50-75. Menos tramas significa menos pasos autorregresivos, permitiendo la generación de 90 minutos de audio multi-hablante (con hasta 4 hablantes distintos) en una sola pasada.
Kyutai Pocket TTS (enero 2026) atacó la frontera de eficiencia: un modelo de 100 millones de parámetros que se ejecuta en tiempo real en una CPU — sin GPU necesaria. Usa un mecanismo de «Monólogo Interior» donde el modelo primero genera una traza de razonamiento interno antes de producir tokens de habla, mejorando la pronunciación de palabras difíciles y números sin aumentar el tamaño del modelo de audio.
Qwen3-TTS (Alibaba, diciembre 2025) escaló tanto datos como arquitectura. Entrenado con más de 5 millones de horas de habla (casi 100 veces los datos de entrenamiento de VALL-E), usa una arquitectura de streaming de doble pista con un tokenizador de 12 Hz para lograr 97ms de latencia del primer audio. El modelo soporta docenas de idiomas y puede cambiar entre ellos a mitad de oración.
Hume TADA (Hume AI, 2026) introdujo una restricción arquitectónica llamativa: alineamiento texto-audio 1:1. Cada paso del LLM produce exactamente un token de texto y exactamente una trama de audio. Esto hace que las alucinaciones (palabras que aparecen en el audio pero no en el texto) sean imposibles por construcción — el modelo no puede generar contenido de audio que no esté anclado a un token de texto. Esto intercambia algo de flexibilidad prosódica por fiabilidad perfecta.
Voxtral TTS (Mistral, marzo 2026) llevó flow matching a escala de producción: un modelo de 4 mil millones de parámetros que combina flow matching con un codec neuronal personalizado, logrando 70ms de tiempo-al-primer-audio. Publicado con pesos abiertos, demostró que el TTS con flow matching podía competir con enfoques autorregresivos a escala.
Varios temas emergen de esta explosión:
- La clonación de voz con 3 segundos es estándar. Todos los sistemas anteriores soportan clonación de voz zero-shot desde un prompt de audio corto. Lo que fue el resultado estrella de VALL-E en 2023 ahora es requisito mínimo.
- La latencia de streaming está por debajo de 100ms. Múltiples sistemas logran menos de 100ms de tiempo-al-primer-audio, haciéndolos adecuados para agentes conversacionales en tiempo real.
- El código abierto es competitivo. Orpheus, F5-TTS y Sesame CSM son completamente de código abierto con licencias permisivas, y su calidad rivaliza o iguala a las APIs comerciales.
- Las guerras de arquitectura continúan. Autorregresivo puro (Orpheus), paralelo (SoundStorm), flow matching (F5-TTS, Voxtral) y enfoques híbridos (VibeVoice) todos producen habla de alta calidad. Aún no hay una sola arquitectura ganadora.
La siguiente tabla resume los sistemas clave:
import json, js
rows = [
["VALL-E (2023)", "AR + NAR", "EnCodec RVQ", "60K hrs", "3s voice cloning", "Zero-shot voice cloning at scale"],
["SoundStorm (2023)", "Parallel (MaskGIT)", "SoundStream", "—", "0.5s for 30s audio", "100x faster than AR"],
["Bark (2023)", "3-stage GPT", "EnCodec", "—", "—", "Non-speech sounds, open-source"],
["F5-TTS (2024)", "Flow matching", "Mel spectrogram", "—", "0.15 RTF", "No phonemes, no duration model"],
["Orpheus (2025)", "Llama 3B AR", "SNAC", "—", "200ms streaming", "Off-the-shelf LLM, Apache 2.0"],
["Sesame CSM (2025)", "Context-aware AR","Multi-codebook", "—", "—", "Dialogue-aware generation"],
["VibeVoice (2025)", "AR + diffusion", "7.5 Hz tokens", "—", "90 min output", "Ultra-low frame rate"],
["Pocket TTS (2026)", "AR + inner mono.","Custom codec", "—", "Real-time on CPU", "100M params, no GPU needed"],
["Qwen3-TTS (2025)", "Dual-track AR", "12 Hz tokeniser", "5M+ hrs", "97ms latency", "Multilingual, massive scale"],
["Hume TADA (2026)", "1:1 alignment", "Custom codec", "—", "—", "Zero hallucinations by design"],
["Voxtral TTS (2026)", "Flow matching", "Custom codec", "—", "70ms first-audio", "4B params, open weights"],
]
js.window.py_table_data = json.dumps({
"headers": ["System", "Architecture", "Audio Repr.", "Training Data", "Speed", "Key Innovation"],
"rows": rows
})
print("Modern TTS systems span multiple architecture families.")
print("Voice cloning from 3 seconds of audio is now a standard capability.")
print("Streaming latency under 100ms enables real-time conversation.")
Clonación de voz y seguridad
Todos los sistemas en la tabla anterior pueden clonar una voz a partir de aproximadamente 3 segundos de audio. Este es un logro de ingeniería notable — y una preocupación seria de seguridad. Si cualquiera puede generar habla con la voz de cualquier otra persona a partir de unos pocos segundos de audio disponible públicamente (un clip de podcast, una charla en conferencia, un video de redes sociales), el potencial de mal uso es significativo: audio deepfake para fraude, suplantación de figuras públicas, evidencia fabricada y ataques de ingeniería social que suenan exactamente como un colega o familiar de confianza.
La comunidad de investigación y la industria han desarrollado varias mitigaciones, aunque ninguna es una solución completa:
- Marca de agua en audio: incrustar firmas inaudibles en el audio generado que pueden ser detectadas por herramientas de verificación pero son imperceptibles para los oyentes humanos. SynthID de Google y AudioSeal de Meta implementan este enfoque. El desafío: las marcas de agua a veces pueden eliminarse recodificando el audio o aplicando filtros.
- Verificación de hablante: entrenar clasificadores para distinguir habla real de sintética. Estos funcionan bien con métodos de síntesis conocidos pero tienen dificultades con generadores nuevos (el problema de la carrera armamentista: a medida que TTS mejora, la detección debe mejorar al mismo ritmo).
- Controles de acceso: muchas APIs comerciales de TTS requieren verificación de identidad, limitan la clonación de voz a voces pre-registradas o añaden divulgaciones obligatorias. OpenAI inicialmente retuvo su modelo de clonación de voz por completo, citando preocupaciones de seguridad.
- Regulación: el AI Act de la UE clasifica la generación de deepfakes como una obligación de transparencia (el contenido generado debe ser etiquetado). Varios estados de EE.UU. han promulgado leyes específicamente dirigidas a la clonación de voz para fraude.
La tensión es real: la misma capacidad que permite a una persona con discapacidad visual escuchar cualquier documento en una voz familiar, o permite a una persona que ha perdido su voz por enfermedad continuar hablando con su propia voz, también permite ataques de suplantación. La mayoría de las publicaciones responsables de TTS ahora incluyen tanto marca de agua como políticas de contenido, pero la tecnología es cada vez más de código abierto y los genios son difíciles de meter de vuelta en la botella.
Quiz
Pon a prueba tu comprensión de la síntesis de voz moderna.
En la arquitectura de dos modelos de VALL-E, ¿qué genera el modelo autorregresivo (AR)?
¿Cómo logra SoundStorm una aceleración de 100x sobre la generación de audio autorregresiva?
En la interpolación de flow matching $\hat{x}_t = (1 - t) \cdot \epsilon + t \cdot x_0$, ¿qué produce el modelo en $t = 0$?
¿Qué ventaja clave tiene el enfoque de flow matching de F5-TTS sobre sistemas basados en tokens como VALL-E?