Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型

php中文网
发布: 2025-11-08 16:24:11
原创
249人浏览过

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型
Step-Audio-EditX 是由阶跃星辰推出的全球首个达到大语言模型(LLM)级别的开源音频编辑大模型。它首次实现了在“情感、说话风格、副语言”三个维度上的细粒度、可迭代控制,能够自由调节愤怒、喜悦、悲伤等情绪的强度,支持撒娇、耳语、老人声线等多种语音风格的叠加与调整,并能像添加字幕一样,在指定位置插入呼吸、笑声、叹气等 10 类自然副语言标记(token)。该模型内置零样本文本转语音(TTS)能力,无需目标人物语音样本即可完成音色克隆,通过在文本前添加“[四川话]”“[粤语]”等标签即可实时切换方言。整个模型完全基于大间隔合成数据进行监督微调(SFT)和近端策略优化(PPO),后训练阶段无需引入额外编码器或适配模块,便能实现属性解耦与多轮编辑控制。


Step-Audio-EditX的核心功能

  • 情感调控:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签,可多次增强或减弱情绪强度,实现渐进式情感表达。
  • 风格变换:涵盖撒娇、耳语、老人、儿童、严肃、慷慨、夸张等多种语音风格,允许连续叠加与精细调节,打造个性化表达。
  • 副语言注入:可在任意位置精准插入呼吸、轻笑、叹息、惊讶词(oh/ah)、确认音(en)、不满哼声(hnn)、疑问语气(ei)、迟疑音(uhm)等 10 类自然副语言 token。
  • 零样本语音合成:无需任何目标人声音数据,仅凭文本输入即可克隆音色;加入“[粤语]”“[四川话]”等语言标签,即时生成对应方言语音。
  • 多轮迭代编辑:同一段语音可反复修改,各属性独立控制不相互干扰,编辑效果逐次累积,支持渐进式优化。
  • 开源轻量化设计:提供 8bit 量化版本,最低仅需单张 8GB 显存显卡即可运行;推荐使用 4×A800/H800 获得最优音质表现;配套开放推理代码、训练脚本、Gradio 演示界面及 Hugging Face Space。

Step-Audio-EditX的技术架构

  • 双码本语音离散化:采用并行双码本结构——16.7 Hz / 1024 类的“语言码本”与 25 Hz / 4096 类的“语义码本”,以 2:3 比例交错切片,将原始语音转换为离散 token 序列,有效保留语义、情感与韵律信息,为 LLM 直接操控语音提供基础。
  • 3B 参数音频大模型:基于已预训练的 3B 规模文本模型初始化,将文本 token 与双码本音频 token 按对话格式拼接输入,仅预测后续音频 token;训练中保持文本与音频数据比例为 1:1,充分复用现有文本 LLM 生态进行高效后训练。
  • 大间隔合成数据训练机制:摒弃传统依赖编码器或 adapter 的方式,仅利用“相同文本、不同属性(情感/风格/副语言)”的成对合成数据进行 SFT 与 PPO 训练;通过设置显著属性差异(大间隔),迫使模型学习到属性间的解耦表示,从而实现强度调节与多属性叠加。
  • 流匹配 + BigVGANv2 解码 pipeline:音频 LLM 输出的双码本 token 经 DiT 架构的流匹配模块转化为 Mel 谱图,再由 BigVGANv2 高保真声码器还原为高质量波形;依托 200,000 小时高质量音频训练,确保发音准确性和音色一致性。
  • 统一处理框架:整套“分词 → LLM 编辑 → 解码”流程同时支持零样本 TTS、情感/风格编辑、副语言插入、语速调节与降噪等功能,无需针对不同任务设计专用模块,大幅降低系统复杂度与部署成本。

Step-Audio-EditX官方资源链接


Step-Audio-EditX的应用领域

  • 有声内容生产:适用于有声书、播客、新闻播报等内容创作,一键添加“喜悦”“悲伤”“耳语”等情绪或风格,无需重新录制即可生成多个情感版本,提升听众沉浸体验。
  • 视频与广告配音短视频、动画、广告可实现角色音色的零样本克隆,并通过叠加“撒娇”“夸张”“严肃”等风格快速生成多样化配音,降低人力成本,提高制作效率。
  • 游戏与虚拟偶像:用于 NPC、虚拟主播、VTuber 等场景,只需一句参考语音即可克隆音色,并实时插入笑声、呼吸、叹气等副语言,构建更真实、生动的交互式语音系统。
  • 智能客服与语音助手:可在标准 TTS 基础上动态调整情绪,将机械回复转为“热情”或“安抚”语调,提升服务亲和力;结合方言标签,满足区域化用户需求。
  • 教育与语言学习在线课程和语言类 APP 可使用“老人”“小孩”“耳语”等风格生成适龄语音,或将普通话自动转换为粤语、四川话等方言,辅助学生模仿练习,减少教师重复录音工作。
  • 会议处理与无障碍支持:对嘈杂或存在长时间静音的会议录音,可先执行“降噪+静音裁剪”,再根据需要加快语速或注入适当情感,输出清晰易懂的纪要音频,便于听障人士理解或归档传播。

以上就是Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号