阶跃星辰近日正式推出其迄今为止最强大的开源端到端语音大模型——step-audio 2 mini,该模型在多项国际权威基准测试中斩获sota成绩,展现出卓越的综合性能。
这款模型创新性地将语音理解、音频推理与语音生成融为一体,在语音识别、跨语言翻译、情感分析、副语言信息解析及语音对话等多样化任务中均表现出色。尤为值得一提的是,Step-Audio 2 mini 首次实现了对语音原生 Tool Calling 能力的支持,能够通过语音指令触发外部工具调用,如实时联网搜索等操作,极大拓展了语音模型的应用边界。
用一句话概括其能力,便是:“听得清楚、想得透彻、说得自然”。
据官方介绍,Step-Audio 2 mini 在多个核心评测任务中全面领先,不仅在音频理解、语音识别、翻译和对话等场景中超越 Qwen-Omni、Kimi-Audio 等现有开源端到端语音模型,更在多数指标上优于 GPT-4o Audio。


Step-Audio 2 mini 凭借一系列架构创新,真正实现了“既走脑也走心”的语音交互体验:

图:Step-Audio 2 mini 模型架构图
目前,Step-Audio 2 mini 已全面开放,开发者可通过以下平台获取模型资源:
GitHub:https://www.php.cn/link/6024f6421eb2bf25995d9dbe18504e25 Hugging Face:https://www.php.cn/link/aa826555e21b7c95a06600456effd501 ModelScope:https://www.php.cn/link/d6aa56c3cd6341dd6c3ab5757a5e103b
以上就是阶跃发布并开源端到端语音大模型 Step-Audio 2 mini的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号