STS vs STT + LLM + TTS: el futuro de los agentes de voz IA

25 may 2026

Los agentes de voz con IA están evolucionando muy rápido. La mayoría de plataformas siguen utilizando una arquitectura clásica basada en STT → LLM → TTS, pero los nuevos modelos speech-to-speech están cambiando completamente la forma en la que funcionan las conversaciones en tiempo real.

En Diga hemos reconstruido toda nuestra infraestructura de voz para pasar a una arquitectura speech-to-speech. En este artículo explicamos cómo funcionan los agentes de voz IA, diferencias entre STT/TTS y speech-to-speech, impacto en latencia y naturalidad, y por qué creemos que este será el estándar para agencias y automatizaciones de voz.

Pipeline antigua y pipeline nueva

Antes de entrar en los desafíos y en por qué hemos tomado esta decisión, vamos a ver cómo funcionaba nuestro sistema antes y qué ha cambiado.

El STT, LLM y TTS

La mayoría de agentes de voz con IA (AI voice agents) hoy en día están compuestos por tres modelos en cadena:

Speech to Text (STT) en voice AI systems recibe el audio del usuario y lo convierte en texto.
Large Language Model (LLM), el cerebro de los agentes conversacionales IA, recibe el texto, decide qué responder y qué acciones ejecutar.
Text to Speech (TTS) en automatización de llamadas con IA coge la respuesta del LLM y la convierte en audio.

Todos estos componentes juntos forman parte de un sistema que permite construir agentes de voz IA capaces de mantener conversaciones en tiempo real de una forma parecida a como lo haría una persona.

Además, entre los modelos principales hay otras piezas más pequeñas que complementan al sistema: el RAG (para responder en base a documentación), detectores de fechas, guardrails (para evitar que el agente diga algo que no debe), entre otras. Todas estas piezas intermedias serán importantes cuando hablemos del cambio a speech to speech, porque muchas de ellas dejan de funcionar tal cual las conocemos.

El STS

Ahora que ya hemos visto la forma "tradicional" de cómo funcionan los agentes de voz, vamos a ver en que consisten los modelos Speech to Speech (STS) para agentes de voz IA

Al contrario de como pasaba con lo que hemos explicado anteriormente, en este caso, hay una única pieza, un único modelo que es el que se encarga de realizar la conversación. Los modelos speech to speech son capaces de recibir directamente el audio de la persona y generar una respuesta en audio, sin pasar por distintas etapas.

Es como coger un modelo de lenguaje y en lugar de enseñarle a entender texto y devolver texto, enseñarle a entender audio y generar audio. Y no solo audio: también podemos añadir imagen y otras entradas. De ahí viene la palabra multimodalidad, de pasar de una modalidad (texto) a varias (texto, audio, imagen...).

Ventajas de los modelos Speech-to-Speech en agentes de voz IA

Antes decía que la pipeline tradicional permite tener conversaciones de una forma "parecida" a como lo haría un humano. Parecida porque en cada salto entre modelos se pierde información.

Cuando el STT convierte el audio en texto, se queda solo con las palabras. Pero cuando hablamos, el tono importa tanto como lo que decimos. No es lo mismo un "vale" dicho con entusiasmo que un "vale" dicho con resignación. El texto es el mismo, el significado es completamente distinto. Toda esa información se pierde antes de llegar al LLM, que recibe un texto empobrecido.

Con el TTS pasa algo parecido pero al revés. El LLM genera una respuesta en texto y se la pasa al modelo de voz para que la convierta en audio. Pero el TTS no sabe nada de la conversación: no sabe si el usuario está frustrado, si está preguntando algo urgente o si está bromeando. Solo recibe un texto y lo lee con una voz y un estilo fijos. Nosotros como humanos adaptamos el tono según la situación; el TTS no puede hacerlo.

En cada paso se pierde algo. Hay avances (algunos LLMs ya generan etiquetas de emoción que el TTS puede interpretar), pero mientras el proceso sea convertir habla en texto y luego texto en habla, siempre vamos a perder información por el camino.

Los modelos speech to speech eliminan esos saltos. Un único modelo recibe el audio con todo: las palabras, el tono, las pausas, el ruido de fondo. Y genera una respuesta en audio con todo ese contexto. Escucha, piensa y responde, como lo hacemos las personas.

Además, hay una segunda ventaja: la latencia. En la pipeline tradicional, cada modelo necesita su tiempo de procesamiento, y los tres van en serie. Con un modelo speech to speech, una sola inferencia reemplaza a tres, lo que reduce significativamente el tiempo entre que el usuario termina de hablar y el agente responde. En los agentes de voz, la latencia es uno de los factores clave de ese "uncanny valley" que continuamente estamos tratando de superar. 500-600 ms de más pueden hacer que la tasa de éxito de las llamadas se reduzca a más de la mitad.

Qué problemas aparecen al migrar un agente de voz IA a Speech-to-Speech

Pasar a speech to speech no es solo cambiar un modelo por otro. Hay cosas que ganamos, pero también cosas que perdemos.

Perdemos modularidad

En la pipeline tradicional, si no nos gustaba un modelo, lo cambiábamos por otro. Podíamos elegir voces más premium para un caso de uso, modelos más rápidos para otro, probar distintos proveedores de STT o TTS según lo que necesitásemos. Con speech to speech, todo depende de un único modelo y por lo tanto perdemos flexibilidad.

Las piezas intermedias dejan de funcionar tal cual

En la sección anterior mencionaba que entre los modelos principales hay otras piezas más pequeñas. Muchas de ellas dependían de tener una transcripción de texto disponible antes de llegar al LLM. Con speech to speech, esa transcripción ya no existe en el mismo punto del proceso, lo que nos obliga a repensar cómo funciona cada una.

El RAG, por ejemplo, antes utilizaba la transcripción del usuario para buscar información relevante y pasársela al LLM (aquí hablamos en detalle de cómo funcionaba nuestro RAG en agentes de voz). Sin transcripción previa, hemos tenido que cambiar el enfoque: ahora usamos un RAG basado en funciones, donde el propio modelo decide cuándo necesita buscar información una vez recibe la pregunta del usuario.

Con el guardrailing pasa algo parecido. Los modelos de guardrailing están diseñados para analizar texto y detectar temas prohibidos o información sensible. Aplicar esto en tiempo real sobre audio sigue siendo un desafío abierto.

Y hay más: las evaluaciones, la redacción de datos personales, la detección de fechas, los fallbacks cuando un proveedor está saturado...

Pero el caso más interesante es el del turn detector. Este componente es el que le dice al agente cuándo debe hablar. En la pipeline tradicional, un mini LLM analiza la transcripción y el contexto para determinar si el usuario ha terminado de hablar. Sin transcripción, necesitamos modelos que trabajen directamente sobre el audio.

Y curiosamente, esto nos acerca de nuevo a cómo funcionamos los humanos. Nosotros no decidimos cuándo hablar solo por lo que la otra persona dice, sino por cómo lo dice: el tono, la entonación, las pausas. Un turn detector basado en audio puede captar esas señales de una forma que uno basado en texto nunca podría. En el próximo post veremos cómo lo hemos resuelto nosotros.

El speech to speech supone desafíos reales. Cambia lo que estábamos acostumbrados a hacer y requiere tecnología que aún está en una etapa temprana.

Por qué estamos migrando a speech-to-speech en agentes de voz IA ahora

Los modelos speech-to-speech para voice agents ya habían aparecido antes ya habían aparecido antes. Los de OpenAI llevan meses disponibles. Pero el modelo de Google, Gemini 3.1 Flash Live, es el primero en el que se juntan tres cosas que hasta ahora no coincidían: naturalidad, capacidad y precio.

En naturalidad, el modelo suena bien. No es robótico, aunque todavía le falta la personalización de voces que ofrecen proveedores como ElevenLabs. En capacidad, antes de hacer el cambio evaluamos el modelo en profundidad utilizando esta eval. El resultado: en su nivel de thinking mínimo ya supera al modelo GPT Realtime, y en nivel medio iguala al GPT Realtime 2. Y en precio, es entre 7 y 8 veces más barato.

Ese cruce de factores es lo que nos hizo dar el paso. Aún hay partes que no están maduras del todo y que requieren trabajo en el ámbito de los modelos de voz . Pero para eso estamos nosotros como plataforma: para que vosotros os centréis en construir los mejores agentes y nosotros nos encarguemos de que la tecnología debajo esté siempre al día.

El futuro de los agentes de voz

Aún queda camino para que las conversaciones con un agente se sientan como hablar con una persona. Hay cosas que seguimos mejorando. Por ejemplo, cuando hablas con alguien, la persona que escucha no se queda en silencio hasta que terminas. Asiente, dice "sí, sí", interrumpe cuando tiene algo relevante que añadir, sabe cuándo le toca. Una conversación natural no es una sucesión de turnos. Es un intercambio fluido donde ambas partes participan a la vez.

En esto consisten los modelos full duplex: son capaces de escuchar y hablar al mismo tiempo. Hace unas semanas, Thinking Machines (el laboratorio de la ex-CTO de OpenAI) lanzó su Interaction Model, que aborda exactamente esto. Nvidia tiene PersonaPlex, y antes estuvo Moshi de Kyutai. Estos modelos suenan muy naturales, pero su nivel de inteligencia aún no es suficiente para ejecutar tareas y funcionar en producción.

Son muchos cambios y no fue una decisión fácil. Implica repensar nuestra arquitectura y trabajar con tecnología para la que los frameworks aún no están preparados. Pero estamos convencidos de que este es el camino para la próxima generación de plataformas de agentes de voz IA para agencias, y preferimos liderar estos cambios que ir detrás de ellos.

‹ Agentes de voz con IA: créalos hablando | Diga

RAG en agentes de voz: por qué casi no lo implementamos | Diga ›

Suscríbete a la newsletter de Diga

Recibe nuestra newsletter con aprendizajes reales, estrategias prácticas y novedades sobre agentes de voz.

Acepto los Términos y Condiciones