minimax 推出了全新语音模型 minimax speech 2.6,全面革新 voice agent 应用体验,带来极致低延迟、专业格式无缝处理、更高级的语音自然度。

1. 极致低延迟,响应更快:交互体验更顺滑
通过对音频生成全流程的深度优化,MiniMax Speech 2.6 实现了端到端延迟低于250毫秒,跻身行业领先行列。在实时对话等对响应速度要求极高的场景中,彻底消除语音生成的卡顿感,让整体交互如行云流水般顺畅。
2. 专业信息智能解析,更高效:信息传达零障碍
Speech 2.6 现已支持多语言环境下网址、邮箱、电话号码、日期、金额等复杂非标准文本的自动识别与正确朗读。无论是与大语言模型协同工作,还是在实际业务中处理动态实体内容,均无需额外进行文本清洗或预处理。输入原始文本即可获得准确发音,大幅提升信息传递效率。
例如,在传统TTS系统中要正确朗读以下内容,需手动转换:
语段原文:Hello Oliver Smith, I'm your intelligent virtual assistant Max! Thank you for your call. I've found your file. The outstanding balance for the phone number +1 415 415 9921 is ,234.56. The associated IP addresses is 192.168.1.1. Your next payment is due in 2032-5-6. If you have any questions, please contact support-vip@technet.com.
语段原文:您好Oliver Smith,我是您的智能虚拟助手Max!感谢您的来电,我已找到您的档案。电话号码14154159921 的未付清余额为 ¥1,234.56。关联的 IP 地址是 192.168.1.1。您的下一个付款到期日是 2032/5/6。如有任何疑问,请联系 support-vip@technet.com。
3. 自然度再升级 + Fluent LoRA 技术:语音表达更地道
在持续提升语音韵律自然度的基础上,Speech 2.6 引入了全新的 Fluent LoRA 功能。
此前 Speech 2.5 已具备高保真音色克隆能力,可精准还原用户口音、语调和说话习惯,广泛适用于各类个性化语音场景。如今,借助 Fluent LoRA,即使原始录音存在口音重、语句不连贯或非母语表达等问题,也能在保留原声特质的同时,输出流畅自然、符合目标文本的高质量语音。
不止于英语场景,该功能已覆盖40多种语言。以日语为例,即便输入的是带有口音或断续的非母语录音,也能一键生成如母语者般流利的语音效果。
MiniMax Speech 2.6 已正式上线,欢迎体验:
MiniMax开放平台:Minimaxi.com/platform_overview
MiniMax Audio:Minimaxi.com/audio
以上就是MiniMax 发布最新语音模型 MiniMax Speech 2.6的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号