0

0

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型

php中文网

php中文网

发布时间:2025-11-08 16:24:11

|

278人浏览过

|

来源于php中文网

原创

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型
Step-Audio-EditX 是由阶跃星辰推出的全球首个达到大语言模型(LLM)级别的开源音频编辑大模型。它首次实现了在“情感、说话风格、副语言”三个维度上的细粒度、可迭代控制,能够自由调节愤怒、喜悦、悲伤等情绪的强度,支持撒娇、耳语、老人声线等多种语音风格的叠加与调整,并能像添加字幕一样,在指定位置插入呼吸、笑声、叹气等 10 类自然副语言标记(token)。该模型内置零样本文本转语音(TTS)能力,无需目标人物语音样本即可完成音色克隆,通过在文本前添加“[四川话]”“[粤语]”等标签即可实时切换方言。整个模型完全基于大间隔合成数据进行监督微调(SFT)和近端策略优化(PPO),后训练阶段无需引入额外编码器或适配模块,便能实现属性解耦与多轮编辑控制。


Step-Audio-EditX的核心功能

  • 情感调控:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签,可多次增强或减弱情绪强度,实现渐进式情感表达。
  • 风格变换:涵盖撒娇、耳语、老人、儿童、严肃、慷慨、夸张等多种语音风格,允许连续叠加与精细调节,打造个性化表达。
  • 副语言注入:可在任意位置精准插入呼吸、轻笑、叹息、惊讶词(oh/ah)、确认音(en)、不满哼声(hnn)、疑问语气(ei)、迟疑音(uhm)等 10 类自然副语言 token。
  • 零样本语音合成:无需任何目标人声音数据,仅凭文本输入即可克隆音色;加入“[粤语]”“[四川话]”等语言标签,即时生成对应方言语音。
  • 多轮迭代编辑:同一段语音可反复修改,各属性独立控制不相互干扰,编辑效果逐次累积,支持渐进式优化。
  • 开源轻量化设计:提供 8bit 量化版本,最低仅需单张 8GB 显存显卡即可运行;推荐使用 4×A800/H800 获得最优音质表现;配套开放推理代码、训练脚本、Gradio 演示界面及 Hugging Face Space。

Step-Audio-EditX的技术架构

  • 双码本语音离散化:采用并行双码本结构——16.7 Hz / 1024 类的“语言码本”与 25 Hz / 4096 类的“语义码本”,以 2:3 比例交错切片,将原始语音转换为离散 token 序列,有效保留语义、情感与韵律信息,为 LLM 直接操控语音提供基础。
  • 3B 参数音频大模型:基于已预训练的 3B 规模文本模型初始化,将文本 token 与双码本音频 token 按对话格式拼接输入,仅预测后续音频 token;训练中保持文本与音频数据比例为 1:1,充分复用现有文本 LLM 生态进行高效后训练。
  • 大间隔合成数据训练机制:摒弃传统依赖编码器或 adapter 的方式,仅利用“相同文本、不同属性(情感/风格/副语言)”的成对合成数据进行 SFT 与 PPO 训练;通过设置显著属性差异(大间隔),迫使模型学习到属性间的解耦表示,从而实现强度调节与多属性叠加。
  • 流匹配 + BigVGANv2 解码 pipeline:音频 LLM 输出的双码本 token 经 DiT 架构的流匹配模块转化为 Mel 谱图,再由 BigVGANv2 高保真声码器还原为高质量波形;依托 200,000 小时高质量音频训练,确保发音准确性和音色一致性。
  • 统一处理框架:整套“分词 → LLM 编辑 → 解码”流程同时支持零样本 TTS、情感/风格编辑、副语言插入、语速调节与降噪等功能,无需针对不同任务设计专用模块,大幅降低系统复杂度与部署成本。

Step-Audio-EditX官方资源链接


Step-Audio-EditX的应用领域

  • 有声内容生产:适用于有声书、播客、新闻播报等内容创作,一键添加“喜悦”“悲伤”“耳语”等情绪或风格,无需重新录制即可生成多个情感版本,提升听众沉浸体验。
  • 视频与广告配音短视频、动画、广告可实现角色音色的零样本克隆,并通过叠加“撒娇”“夸张”“严肃”等风格快速生成多样化配音,降低人力成本,提高制作效率。
  • 游戏与虚拟偶像:用于 NPC、虚拟主播、VTuber 等场景,只需一句参考语音即可克隆音色,并实时插入笑声、呼吸、叹气等副语言,构建更真实、生动的交互式语音系统。
  • 智能客服与语音助手:可在标准 TTS 基础上动态调整情绪,将机械回复转为“热情”或“安抚”语调,提升服务亲和力;结合方言标签,满足区域化用户需求。
  • 教育与语言学习在线课程和语言类 APP 可使用“老人”“小孩”“耳语”等风格生成适龄语音,或将普通话自动转换为粤语、四川话等方言,辅助学生模仿练习,减少教师重复录音工作。
  • 会议处理与无障碍支持:对嘈杂或存在长时间静音的会议录音,可先执行“降噪+静音裁剪”,再根据需要加快语速或注入适当情感,输出清晰易懂的纪要音频,便于听障人士理解或归档传播。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6031

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

778

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1044

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1067

2024.03.01

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

45

2025.09.03

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

255

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

383

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

889

2024.03.12

ip地址修改教程大全
ip地址修改教程大全

本专题整合了ip地址修改教程大全,阅读下面的文章自行寻找合适的解决教程。

27

2025.12.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号