初创企业 resemble ai 已在 mit 开源协议下正式发布其全新文本转语音模型——“chatterbox turbo”。该模型在语音合成能力上取得重大进展:仅依赖5秒长的参考语音样本,即可高保真复刻目标人声;更令人瞩目的是,它能在150毫秒内完成首段音频的生成与输出。

如此超低延迟的响应特性,使其特别适用于实时 AI 助理、智能客服系统、可交互的动态游戏 NPC、数字人形象以及社交应用中的即时语音互动等场景。Resemble AI 表示,Chatterbox Turbo 在音质自然度与表达连贯性方面已优于当前主流闭源方案,为开发者带来更接近真人语感的语音合成体验。
在安全与合规层面,该模型集成了名为“PerTh”的神经水印技术,专为金融、医疗等强监管行业设计,可自动嵌入并验证语音内容是否由 AI 生成,从而增强对语音伪造行为的识别与防控能力。
现阶段,Resemble AI 不仅开放了完整源代码,还同步上线了云托管服务,并预告将在不久后推出延迟进一步压缩的新版本,力图借力开源协作生态,推动语音合成技术走向更高性能、更广普及与更强可信的新阶段。
源码地址:点击下载










