讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 新闻 > IT新闻 > 正文

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

霞舞

发布： 2025-09-01 15:03:01

原创

396人浏览过

阶跃星辰近日正式推出其迄今为止最强大的开源端到端语音大模型——step-audio 2 mini，该模型在多项国际权威基准测试中斩获sota成绩，展现出卓越的综合性能。

这款模型创新性地将语音理解、音频推理与语音生成融为一体，在语音识别、跨语言翻译、情感分析、副语言信息解析及语音对话等多样化任务中均表现出色。尤为值得一提的是，Step-Audio 2 mini 首次实现了对语音原生 Tool Calling 能力的支持，能够通过语音指令触发外部工具调用，如实时联网搜索等操作，极大拓展了语音模型的应用边界。

用一句话概括其能力，便是：“听得清楚、想得透彻、说得自然”。

据官方介绍，Step-Audio 2 mini 在多个核心评测任务中全面领先，不仅在音频理解、语音识别、翻译和对话等场景中超越 Qwen-Omni、Kimi-Audio 等现有开源端到端语音模型，更在多数指标上优于 GPT-4o Audio。

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

Linfo.ai

Linfo.ai

Linfo AI 是一款AI驱动的 Chrome 扩展程序，可以将网页文章、行业报告、YouTube 视频和 PDF 文档转换为结构化摘要。

Linfo.ai

151

Linfo.ai

在多模态音频理解基准 MMAU 上，Step-Audio 2 mini 以73.2分高居开源端到端语音模型榜首；
在评估口语对话能力的 URO Bench 测试中，其在基础与专业赛道均取得开源模型最佳成绩，充分展现其强大的对话理解与表达能力；
中英互译任务中表现尤为亮眼，在 CoVoST 2 和 CVSS-C 测试集上分别获得 39.3 和 29.1 的高分，显著优于 GPT-4o Audio 及其他开源语音模型；
语音识别方面，Step-Audio 2 mini 实现多语言与多方言领先，其中中文开源测试集平均 CER（字错误率）低至 3.19，英文测试集平均 WER（词错误率）为 3.50，性能领先同类开源模型超15%。

Step-Audio 2 mini 凭借一系列架构创新，真正实现了“既走脑也走心”的语音交互体验：

真正的端到端多模态架构：突破传统 ASR + LLM + TTS 的三段式结构，直接实现从原始音频输入到语音输出的全流程建模，结构更简洁、响应更迅速，同时能精准捕捉语调、停顿、背景音等非语音信息。

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

图：Step-Audio 2 mini 模型架构图

CoT 推理与强化学习融合：首次在端到端语音模型中引入链式思维推理（Chain-of-Thought, CoT）并结合强化学习进行联合优化，使模型具备对情绪、语调、音乐等复杂音频信号进行深度推理并生成自然回应的能力；
音频知识增强机制：支持集成外部工具如 web 检索，有效缓解模型幻觉问题，提升事实准确性，并赋予其在开放场景下的持续扩展能力。

目前，Step-Audio 2 mini 已全面开放，开发者可通过以下平台获取模型资源：

GitHub：https://www.php.cn/link/6024f6421eb2bf25995d9dbe18504e25 Hugging Face：https://www.php.cn/link/aa826555e21b7c95a06600456effd501 ModelScope：https://www.php.cn/link/d6aa56c3cd6341dd6c3ab5757a5e103b

以上就是阶跃发布并开源端到端语音大模型 Step-Audio 2 mini的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git 工具 ai 架构 github https gpt 语音生成

大家都在看：

用数据照亮成长之路：PandaCoder Git 统计工具窗口 Git 3.0 有望在 2026 年发布，默认启用更安全的 SHA-256 哈希算法 JetBrains 宣布 DataGrip 面向非商业用途免费 Linus 对 Git 提交信息中“Link:”标签被滥用表达不满开源 IDE 项目 Zed 完成 3200 万美元 B 轮融资

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：飞腾D3000M笔电达成9秒开机新纪录！下一篇：亚马逊 AWS 旗下 AI 编程工具 Kiro 继续免费至 9 月 15 日

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

丁香医考app题目联系入口

2025-12-21 10:48:07
百度高考志愿填报系统靠谱吗

2025-12-21 10:49:02
安全教育平台如何添加第二个账号

2025-12-21 10:50:03
《灵兽大冒险》宠物选择推荐

2025-12-21 10:51:23
卡普空小萝莉特典化身武士or忍者！导演解释选取缘由

2025-12-21 11:03:08
合作生存冒险游戏新作《金河计划》下月抢先体验

2025-12-21 11:27:08
3A游戏性能提升15倍！摩尔线程庐山芯片发布

2025-12-21 11:58:02
尚未问世但两年拿五个奖！《GTA6》太离谱了

2025-12-21 12:37:02
晨报|暴雪承诺每年都有新产品小岛秀夫谈新作题材

2025-12-21 13:01:02
国产游戏《人窟日记》还原鲁迅祖居！你发现了吗？

2025-12-21 13:37:02

最新问题

Windows 11 画图工具迎来全新 AI 功能 Windows11自带的“画图”应用近期迎来多项实用升级，涵盖工具栏自动隐藏机制及全新集成的AI功能。随着画图界面逐步向现代化演进，顶部工具栏尺寸有所增加，占用了更多屏幕区域。为优化显示空间，新版中新增了一个开关选项，支持用户启用工具栏自动隐藏模式——仅在调整画笔粗细、切换颜色或更换工具时，工具栏才会临时浮现。该设计不仅释放了宝贵的屏幕面积，还提升了创作沉浸感，尤其适用于细节刻画、高倍缩放查看或最终修饰等场景。此外，借助微软最新推出的“WindowsAILabs”计划，部分用户已可提前体验一项

2025-12-23 22:15:08

835

马斯克 xAI 旗下 AI 游戏工作室开始招募人才马斯克在社交媒体平台正式披露，xAI正在推进一项代号为“AI游戏工作室（AIgamingstudio）”的战略级项目，聚焦于打造颠覆性的、由人工智能深度驱动的视频游戏体验。该项目的核心目标是借助前沿AI技术，构建具备高度自主性与实时演化的游戏世界——所有场景、角色、叙事及规则均可动态生成。目前团队正面向全球广纳贤才，特别寻求擅长以第一性原理（firstprinciples）思维重构游戏设计逻辑的开发者加入。有意者可发送简历与作品至官方邮箱：gamestudio@x.ai，同时官方已同步公开一

2025-12-23 21:27:19

983

阿里开源端到端语音交互模型 Fun-Audio-Chat 通义大模型微信公众号正式发布全新一代端到端语音交互模型——Fun-Audio-Chat。“不止于‘会说话’，更懂你言外之意、识你情绪起伏、助你高效办事——这才是真正懂你的AI语音伙伴。”当前已开源Fun-Audio-Chat8B版本，完整提供模型权重、推理代码及FunctionCall集成示例。核心技术亮点：全链路端到端S2S架构：语音输入直出语音响应，跳过传统ASR+LLM+TTS多模块串联流程，显著提升响应速度、降低系统延迟。创新双分辨率协同机制：SharedLLM主干

2025-12-23 21:13:02

201

从豆包手机谈起：端侧智能的愿景与路线图本文转载自：https://mp.weixin.qq.com/s/s13YBYD9R8y-PK7FO3Suyw作者：OpenBMB开源社区近日，字节跳动发布的豆包手机助手在业内激起了广泛讨论。这不仅是一款新智能硬件的

2025-12-23 20:50:03

421

Anthropic 开源官方 Agent Skills 知识库 Anthropic已在GitHub上正式开源其官方AgentSkills知识库——anthropics/skills，为Claude模型的技能体系提供了标准化参考实现与工程实践指南。该仓库目前收录了16个开放可用的示例技能，涵盖文档解析（如DOCX、PDF）、创意内容生成、软件开发支持、企业级协作沟通等多个实用方向。https://github.com/anthropics/skills值得注意的是，部分文档处理类技能（例如Word与PDF文件的结构化提取与编辑）已在C

2025-12-23 20:37:18

587

Meta 计划在 2026 上半年发布全新图像视频模型与文本模型 Meta正在加速推进下一代人工智能技术的研发进程，计划于2026年上半年正式推出一款全新的图像与视频生成AI模型，内部代号为“Mango”。该模型旨在显著增强Meta在视觉内容生成领域的技术实力，以应对来自Google、OpenAI等头部科技公司的激烈竞争。此外，Meta还同步推进另一款名为“Avocado”的文本大语言模型研发工作，聚焦于提升代码生成、逻辑推理及复杂任务处理等核心语言能力。据公司内部消息显示，这两项关键项目均由新组建的MetaSuperintelligenc

2025-12-23 20:33:01

839

宇树科技获交互控制专利授权企查查信息显示，宇树科技申请的“一种基于扩散策略的机器人交互控制方法和服务器”专利已正式获得授权。该专利聚焦于解决当前机器人控制模型因难以准确预判未来状态而导致的动作理解不充分、响应滞后等问题。摘要指出，本发明属于机器人控制技术领域。现有方案普遍存在对未来时刻机器人状态演化缺乏建模能力的问题，进而导致动作意图识别模糊、环境反馈延迟等缺陷。本发明提出一种融合场景感知与渐进式决策的交互控制框架，通过协同构建场景理解模型、场景交互预测模型及扩散策略决策模型，实现对机器人动作所引发的环境动态变化的精细化

2025-12-23 20:24:02

391

Cursor 收购 AI 代码协作平台 Graphite AI代码协作平台Graphite近日宣布，已与智能编程助手Cursor达成最终收购协议，正式成为其一部分。该交易预计将在未来几周内完成，Graphite全体成员将整体加入Cursor团队。据Graphite官方声明，交易完成后，Graphite仍将保持独立产品形态持续运营，并获得更雄厚的技术与资源支撑。双方将深度融合各自能力，共同构建一个覆盖代码编写、智能审查到自动化合并的全链路AI驱动开发平台。Graphite联合创始人兼首席执行官MerrillLutsky指出，本次整合的核心目标是融合双方技

2025-12-23 20:18:08

942

英伟达云业务战略调整，重心转向内部 AI 开发英伟达在首席执行官黄仁勋的主导下，正悄然重塑其云业务的发展路径，并于近日正式宣布启动云业务团队的架构调整。据公司内部备忘录及多位知情人士透露，此次调整标志着英伟达将主动弱化与亚马逊AWS等头部云服务商的直接竞争关系，转而聚焦于强化自身AI技术栈的内生研发能力。AlexisBlackBjorlin——这位自2023年从Meta加盟英伟达的资深高管，已被委以新职，牵头推进云业务团队的整合工作。原先规模达数百人的云业务部门，将整体并入由高级副总裁DwightDiercks主导的工程与运营体

2025-12-23 20:12:07

836

MiniMax 开源视觉分词器扩展技术 VTP MiniMax联合华中科技大学首次对外开源其视觉生成核心技术——VTP（VisualTokenizerPretraining，视觉分词器预训练）。该技术在不改动标准DiT架构的前提下，仅通过对视觉分词器（VisualTokenizers）进行扩展与优化，便实现了高达65.8%的端到端生成性能提升。区别于多数分词器相关研究，VTP的设计理念强调“零侵入”：它完全不干预下游主干模型（如DiT）的训练流程，所有改进均集中在前置的tokenizer模块上，从而以极低耦合代价达成生成质量的显著跃

2025-12-23 20:11:12

204

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Git 教程

21283次学习
收藏
Git版本控制工具

14904次学习
收藏
Git中文开发手册

0次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部