AI-NATIVE · 1 de julio de 2026
Los agentes de voz por fin cruzaron la línea de la latencia
Durante años, los agentes de voz con IA fallaban en una sola cosa: la pausa. Ese medio segundo de aire muerto después de que dejabas de hablar hacía que cualquier bot telefónico se sintiera roto. En 2026 la pausa desapareció: streaming de voz de punta a punta, nuevos modelos de voz de state-space a 40 ms y round trips por debajo de 500 ms meten la voz dentro de la ventana en la que una conversación se siente real. El modelo nunca fue la parte difícil. El timing sí lo era — y ahora el timing es un problema de ingeniería, no de investigación.
Lo que mataba a los bots de voz nunca fue la inteligencia. Era la pausa. Terminas una frase, y el bot se queda ahí un instante — medio segundo, a veces uno entero — antes de responder. Tu cerebro lee ese hueco como roto, y aporreas el 0 para pedir un humano. Cada sistema de «marque 1 para facturación» que odiaste murió en ese hueco, no en su vocabulario.
En 2026 el hueco se cerró.
La cifra que lo cambió todo
Una conversación se siente real cuando el round trip — dejas de hablar, vuelve el primer audio — cae por debajo de unos 500 ms (agresivo) a 700 ms (ampliamente aceptado). Antes eso era imposible con las piezas apiladas. Ahora cada pieza encaja: reconocimiento de voz en streaming por debajo de 300 ms, primer token del LLM por debajo de 300 ms y primer audio de síntesis por debajo de 100 ms. Móntalas y estás dentro del presupuesto.
El desbloqueo vino de la capa de voz. Sonic-Turbo de Cartesia usa un modelo de state-space en vez de un transformer y mantiene 40 ms incluso bajo carga — justo donde el TTS de transformer se cae a pedazos a escala. ElevenLabs está por debajo de 100 ms y ya funciona dentro de los contact centers de IBM watsonx. Vapi reporta más de 300M de llamadas con un promedio por debajo de 500 ms. Se proyecta que el mercado de IA conversacional pase de $2.4B en 2024 a $47.5B para 2034 — y la razón no son modelos más listos. Son milisegundos.
La parte difícil de la voz nunca fue el IQ del modelo. Era el silencio entre turnos — y el silencio es un problema de ingeniería, no de investigación.
Qué cambió de verdad
No el cerebro. La fontanería. Streaming de punta a punta para que el audio empiece antes de que el modelo termine de pensar; gestión de turnos que sabe cuándo has terminado y se recupera cuando interrumpes; y una arquitectura de TTS construida para la latencia en vez de para calidad-a-cualquier-precio. El modelo que contesta la llamada suele ser el mismo modelo que respondía tus chats el año pasado. Solo dejó de hacerte esperar.
Qué desbloquea
El teléfono vuelve a ser una interfaz real — y quienes más lo necesitan no son las empresas de tecnología. Son el salón, la clínica, el pequeño estudio que vive de las llamadas entrantes y pierde la mitad porque no hay nadie libre para atender. Un agente de voz que contesta al primer timbre y agenda la cita ya no es una demo; es un problema de llamadas perdidas que por fin se está resolviendo. (Es justo por eso que estoy construyendo uno.)
Las dos trampas
No construyas el pipeline. El bucle de audio en tiempo real — la gestión de turnos, la interrupción, el presupuesto de latencia — esa es la ingeniería genuinamente difícil, y ahora es un commodity ya resuelto. Álquilalo (Vapi, Retell). Tu valor es la lógica detrás de la llamada, no la fontanería debajo de ella.
La voz no se libra del grounding. Un bot que agenda citas no debe inventar un hueco libre ni confirmar alegremente una reserva que nunca ocurrió. La misma regla que repito para el texto se mantiene al teléfono: aterriza el modelo en una fuente real y nunca dejes que él invente los hechos. Una voz segura que se inventa cosas es peor que un chat que hace lo mismo — suena confiable.
En resumen
La voz cruzó la línea. La pausa desapareció, y lo hizo en silencio — sin ningún modelo frontier nuevo, solo los milisegundos alineándose por fin. La oportunidad no es un bot más listo. Es apuntar una interfaz de repente utilizable a la montaña de llamadas que los pequeños negocios todavía no pueden atender.
Construye la lógica y el grounding. Alquila los milisegundos.
Comentarios
Aún no hay comentarios
Inicia sesión para unirte a la conversación.
Sé el primero en compartir una idea.