AI-NATIVE · 2026年7月1日

语音 agent 终于跨过了延迟这道线

多年来，AI 语音 agent 一直栽在同一件事上：停顿。你说完话之后那半秒的死寂，让每一个电话机器人都感觉像坏了。到了 2026 年，停顿消失了——端到端的语音流式传输、40 毫秒的全新 state-space 语音模型，以及低于 500 毫秒的往返时延，把语音送进了对话感觉真实的那个窗口。模型从来都不是难的部分。难的是时机——而现在时机是一个工程问题，不是一个研究问题。

杀死语音机器人的，从来都不是智能。是停顿。你说完一句话，机器人就在那儿愣一下——半秒，有时候整整一秒—— 才回你。你的大脑把那个空档读成坏了，于是你猛按 0 找人工。你恨过的每一个「按 1 转账单」系统，都死在那个空档上，而不是死在它的词汇量上。

到了 2026 年，这个空档合上了。

那个改变一切的数字

一段对话要感觉真实，往返时延——你说完话、第一段音频回来——得落在大约 500 毫秒（激进）到 700 毫秒（被广泛接受）以内。以前把这些部件叠起来，这根本做不到。现在每个部件都塞得进去了：流式语音识别低于 300 毫秒、LLM 首个 token 低于 300 毫秒、语音合成首段音频低于 100 毫秒。把它们拼起来，你就在预算之内了。

突破来自语音这一层。Cartesia 的 Sonic-Turbo 用的是 state-space 模型 而不是 transformer，即使在负载下也稳稳保持 40 毫秒——而 transformer TTS 在规模化时正是在这儿崩掉的。ElevenLabs 低于 100 毫秒，并且已经跑进了 IBM watsonx 的呼叫中心。Vapi 报告了 3 亿多次通话，平均低于 500 毫秒。对话式 AI 市场预计将从 2024 年的 24 亿美元增长到 2034 年的 475 亿美元——原因不是更聪明的模型。是毫秒。

语音难的部分从来都不是模型的 IQ。是回合之间的那段沉默——而沉默是一个工程问题，不是一个研究问题。

暂无评论

登录以参与讨论。

做第一个分享想法的人。

语音 agent 终于跨过了延迟这道线

那个改变一切的数字

真正改变的是什么

它解锁了什么

两个陷阱

结论

评论