
小红书团队近日开源了名为 FireRedTTS2 的全新语音合成系统,专为多说话人场景下的长篇流式对话生成设计,致力于为播客内容创作与智能聊天机器人提供更加自然、连贯的语音输出体验。
主要特性包括:
- 支持长文本多角色对话:可生成最长 3 分钟的四人对话内容,并具备良好的扩展性,通过增加训练数据即可支持更长时间的对话及更多说话人。
- 多语言能力强大:系统覆盖英语、中文、日语、韩语、法语、德语和俄语等多种语言,能够在跨语言交流或代码切换语境下实现零样本语音克隆,无需额外参考音频即可生成目标音色的语音。
- 极致低延迟表现:依托 12.5Hz 的流式语音标记器与双 Transformer 架构,支持文本与语音标记的交错生成,实现逐句实时合成。首包响应延迟低至 140ms,在保证流畅性的同时维持高保真音质。
- 合成稳定性优异:在独白与多人对话测试中均表现出高度的语音相似度以及较低的词错误率(WER)和字符错误率(CER),确保信息准确传达。
- 支持随机音色生成:可用于构建多样化的语音交互训练数据集,提升语音识别与对话系统的鲁棒性。
目前,项目团队已公开技术论文与演示页面,并预告将于 10 月发布升级版多语言基础模型、完整的微调代码与使用教程,以及端到端的 text-to-blog 生成流程。

该项目代码已完整开源,附带详细的安装指南和使用示例,依赖 PyTorch 2.7.1 版本,模型权重已上传至 Hugging Face 平台,便于开发者快速集成与部署。
https://www.php.cn/link/23f38cc38c9291fec95487293bbed704
https://www.php.cn/link/100a527975525b513a983359a3c51378
https://www.php.cn/link/51540863fba76ac6cb10eded0ff9ef7b
源码地址:点击下载











