智谱ai正式发布并开源了工业级语音合成系统 glm‑tts。
官方介绍显示,仅需3秒的语音片段,GLM‑TTS 即可精准捕捉目标说话人的音色特征与语调习惯。该模型在通用文本朗读、情感化配音、教育口语评测、电子书播讲、智能有声客服等多种实际应用场景中,均可输出自然连贯、高度拟人化的语音效果。
GLM‑TTS 采用两阶段语音生成架构,并在训练过程中融合基于 GRPO 的强化学习策略,在公开基准测试的「字错误率(CER)」与「情感表达准确度」两项关键指标上,均达到当前开源模型中的最优水平(SOTA)。


该模型基于 GRPO 框架,设计了多维度奖励函数与稳定性增强机制,在确保可控性的前提下,显著提升了语音的表现力与鲁棒性。

其强化学习模块创新性地结合真实训练数据与高质量合成数据构建训练样本,实现了近乎零成本的数据扩充。通过与优化后的训练算法深度协同,有效抑制了奖励欺骗(reward hacking)现象,保障了模型性能的真实性与泛化能力,即便面对未参与训练的新样本,依然保持优异表现。
值得关注的是,GLM‑TTS 仅依赖约10万小时的训练数据,远低于主流商用语音合成模型所需的数据量。同时,它在训练效率与效果之间取得良好平衡:预训练阶段仅需单台服务器运行4天,即可达成开源领域领先的“发音准确率”与“音色保真度”;而针对精品音色微调的 LoRA 模块及后续强化学习精调,也仅需单机1天即可完成,大幅优于行业平均耗时。

此外,GLM‑TTS 在成本大幅降低的同时,仍斩获业内顶尖的 MOS 分数(Mean Opinion Score,平均主观评分),展现出卓越的听感品质。
GLM‑TTS 相关资源(含模型权重、推理代码、示例工程等):
GitHub:https://www.php.cn/link/bc931d478676400884a7371ff4b9b0f5
Hugging Face:https://www.php.cn/link/23270334cb68c628783066181ece864b
源码地址:点击下载
以上就是智谱上线并开源工业级语音合成系统 GLM‑TTS的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号