Step-Audio 2 mini— 阶跃星辰开源的端到端语音大模型-人工智能-PHP中文网

Step-Audio 2 mini— 阶跃星辰开源的端到端语音大模型

心靈之曲

发布： 2025-09-02 12:29:17

原创

1063人浏览过

step-audio 2 mini 是由阶跃星辰推出的开源端到端语音大模型。该模型打破传统语音处理的层级架构，采用真正的端到端多模态设计，能够直接将原始音频输入转化为语音输出，显著降低响应延迟，同时具备对副语言信息（如语气、情绪）和非人声信号（如环境音、音乐）的理解能力。模型融合链式思维推理（chain-of-thought, cot）与强化学习进行联合优化，实现对情感、语调等细节的精准捕捉与自然回应，并支持调用 web 检索等外部工具，有效缓解生成幻觉问题，增强在多样化场景下的适应性和扩展性。

在性能表现方面，Step-Audio 2 mini 在多个国际权威评测中达到领先水平。在通用多模态音频理解基准 MMAU 上，以 73.2 的高分位居开源端到端语音模型首位；在衡量口语对话能力的 URO Bench 测试中，其在基础与专业赛道均取得开源模型最佳成绩；在中英语音互译任务中，表现远超 GPT-4o Audio 及其他开源语音模型；在语音识别任务上，于多语言与多方言场景下均排名第一，领先同类开源模型超过 15%。

千图设计室AI海报

千图网旗下的智能海报在线设计平台

172

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Step-Audio 2 mini的核心功能

音频理解能力：可准确解析各类音频内容，涵盖语音、自然声音、音乐等，还能识别情绪、语调等副语言特征，感知“言外之意”。
高精度语音识别：在多语言及多方言环境下具备卓越的识别准确率，能高效将语音转写为文本，适用于复杂语言场景。
跨语言语音翻译：支持语音到语音的实时翻译，实现中英文等多种语言间的流畅互译，助力跨语言沟通无障碍。
情感与非语言信号分析：可识别语音中的情绪状态（如愤怒、喜悦、悲伤）以及笑声、咳嗽、叹息等非语言行为，提升交互真实感。
自然语音对话：具备流畅的口语对话能力，能理解上下文与复杂语义，生成合理回应，适用于智能客服、语音助手等交互场景。
外部工具集成：支持联网搜索等功能，实时获取最新信息，增强回答的准确性与时效性。
音频内容生成：可用于播客、有声书等内容创作，辅助生成高质量语音内容，激发创作灵感。

Step-Audio 2 mini的技术创新

端到端多模态架构：摒弃传统语音模型“语音识别→文本处理→语音合成”的三阶段流程，直接从原始音频到音频输出，结构更简洁，延迟更低，且能保留更多副语言与非语音信息。
CoT + 强化学习联合训练：首次在端到端语音模型中引入链式思维推理与强化学习协同优化机制，使模型能对情绪、语调、音乐等进行深入理解与逻辑化回应。
音频知识增强机制：通过接入 web 检索等外部知识源，弥补模型静态知识局限，有效减少幻觉，提升在开放场景下的应答能力。