fedorthinks
全部笔记

AI-NATIVE · 2026年7月1日

语音 agent 终于跨过了延迟这道线

多年来,AI 语音 agent 一直栽在同一件事上:停顿。你说完话之后那半秒的死寂,让每一个电话机器人都感觉像坏了。到了 2026 年,停顿消失了——端到端的语音流式传输、40 毫秒的全新 state-space 语音模型,以及低于 500 毫秒的往返时延,把语音送进了对话感觉真实的那个窗口。模型从来都不是难的部分。难的是时机——而现在时机是一个工程问题,不是一个研究问题。

语音 agent 终于跨过了延迟这道线

杀死语音机器人的,从来都不是智能。是停顿。你说完一句话,机器人就在那儿愣一下——半秒,有时候整整一秒—— 才回你。你的大脑把那个空档读成 坏了,于是你猛按 0 找人工。你恨过的每一个「按 1 转账单」系统, 都死在那个空档上,而不是死在它的词汇量上。

到了 2026 年,这个空档合上了。

那个改变一切的数字

一段对话要感觉真实,往返时延——你说完话、第一段音频回来——得落在大约 500 毫秒(激进)到 700 毫秒(被广泛接受)以内。以前把这些部件叠起来,这根本做不到。现在每个部件都塞得进去了: 流式语音识别低于 300 毫秒、LLM 首个 token 低于 300 毫秒、语音合成首段音频低于 100 毫秒。 把它们拼起来,你就在预算之内了。

突破来自语音这一层。Cartesia 的 Sonic-Turbo 用的是 state-space 模型 而不是 transformer,即使在负载下也稳稳保持 40 毫秒——而 transformer TTS 在规模化时正是在这儿崩掉的。ElevenLabs 低于 100 毫秒, 并且已经跑进了 IBM watsonx 的呼叫中心。Vapi 报告了 3 亿多次通话,平均低于 500 毫秒。 对话式 AI 市场预计将从 2024 年的 24 亿美元增长到 2034 年的 475 亿美元——原因不是更聪明的模型。 是毫秒。

语音难的部分从来都不是模型的 IQ。是回合之间的那段沉默——而沉默是一个工程问题,不是一个研究问题。

真正改变的是什么

不是大脑。是管道。端到端的流式传输,让音频在模型想完之前就先出来;懂得你什么时候说完、被你打断时 还能恢复的回合管理;以及一个为延迟而不是为「不惜代价的质量」而生的 TTS 架构。接电话的那个模型, 往往就是去年回你聊天的 同一个 模型。它只是不再让你等了。

它解锁了什么

电话重新成了一个真正的界面——而最需要它的不是科技公司。是那些靠打进来的电话过日子、却因为没人腾得出手 接听而漏掉一半的沙龙、诊所、小工作室。一个第一声铃就接起、并把预约排上的语音 agent,不再是个 demo; 它是一个终于有解的漏接电话问题。(这正是我在造一个的原因。)

两个陷阱

别自己造流水线。 实时音频回路——回合管理、抢话打断、延迟预算——才是真正难的工程,而它现在已经是 解决好的 commodity 了。租它(Vapi、Retell)。你的价值是通话背后的逻辑,不是它下面的那套管道。

语音也逃不掉 grounding。 一个负责排预约的机器人,不能凭空造一个空档,也不能兴高采烈地确认一个 从没发生过的预约。我一直对文本重复的那条规则,在电话上同样成立:把模型锚在一个真实来源上,绝不让它自己编造事实。 一个自信满满、却在瞎编的声音,比一个干同样事的聊天更糟——它 听起来 很可靠。

结论

语音跨过了这道线。停顿消失了,而且是悄无声息地——没有什么新的前沿模型,只是毫秒终于凑齐了。 机会不在于一个更聪明的机器人。而在于把一个突然变得可用的界面,对准那座小企业至今还接不了的电话之山。

造逻辑和 grounding。毫秒租来用。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。