Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型

php中文网

发布时间：2025-11-08 16:24:11

278人浏览过

来源于php中文网

原创

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Audio-EditX— 阶跃星辰开源的音频编辑大模型
Step-Audio-EditX 是由阶跃星辰推出的全球首个达到大语言模型（LLM）级别的开源音频编辑大模型。它首次实现了在“情感、说话风格、副语言”三个维度上的细粒度、可迭代控制，能够自由调节愤怒、喜悦、悲伤等情绪的强度，支持撒娇、耳语、老人声线等多种语音风格的叠加与调整，并能像添加字幕一样，在指定位置插入呼吸、笑声、叹气等 10 类自然副语言标记（token）。该模型内置零样本文本转语音（TTS）能力，无需目标人物语音样本即可完成音色克隆，通过在文本前添加“[四川话]”“[粤语]”等标签即可实时切换方言。整个模型完全基于大间隔合成数据进行监督微调（SFT）和近端策略优化（PPO），后训练阶段无需引入额外编码器或适配模块，便能实现属性解耦与多轮编辑控制。

Step-Audio-EditX的核心功能

情感调控：支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情绪标签，可多次增强或减弱情绪强度，实现渐进式情感表达。
风格变换：涵盖撒娇、耳语、老人、儿童、严肃、慷慨、夸张等多种语音风格，允许连续叠加与精细调节，打造个性化表达。
副语言注入：可在任意位置精准插入呼吸、轻笑、叹息、惊讶词（oh/ah）、确认音（en）、不满哼声（hnn）、疑问语气（ei）、迟疑音（uhm）等 10 类自然副语言 token。
零样本语音合成：无需任何目标人声音数据，仅凭文本输入即可克隆音色；加入“[粤语]”“[四川话]”等语言标签，即时生成对应方言语音。
多轮迭代编辑：同一段语音可反复修改，各属性独立控制不相互干扰，编辑效果逐次累积，支持渐进式优化。
开源轻量化设计：提供 8bit 量化版本，最低仅需单张 8GB 显存显卡即可运行；推荐使用 4×A800/H800 获得最优音质表现；配套开放推理代码、训练脚本、Gradio 演示界面及 Hugging Face Space。

Step-Audio-EditX的技术架构

双码本语音离散化：采用并行双码本结构——16.7 Hz / 1024 类的“语言码本”与 25 Hz / 4096 类的“语义码本”，以 2:3 比例交错切片，将原始语音转换为离散 token 序列，有效保留语义、情感与韵律信息，为 LLM 直接操控语音提供基础。
3B 参数音频大模型：基于已预训练的 3B 规模文本模型初始化，将文本 token 与双码本音频 token 按对话格式拼接输入，仅预测后续音频 token；训练中保持文本与音频数据比例为 1:1，充分复用现有文本 LLM 生态进行高效后训练。
大间隔合成数据训练机制：摒弃传统依赖编码器或 adapter 的方式，仅利用“相同文本、不同属性（情感/风格/副语言）”的成对合成数据进行 SFT 与 PPO 训练；通过设置显著属性差异（大间隔），迫使模型学习到属性间的解耦表示，从而实现强度调节与多属性叠加。
流匹配 + BigVGANv2 解码 pipeline：音频 LLM 输出的双码本 token 经 DiT 架构的流匹配模块转化为 Mel 谱图，再由 BigVGANv2 高保真声码器还原为高质量波形；依托 200,000 小时高质量音频训练，确保发音准确性和音色一致性。
统一处理框架：整套“分词 → LLM 编辑 → 解码”流程同时支持零样本 TTS、情感/风格编辑、副语言插入、语速调节与降噪等功能，无需针对不同任务设计专用模块，大幅降低系统复杂度与部署成本。

Step-Audio-EditX官方资源链接

项目官网：https://www.php.cn/link/757ef3cdc6e89291664b0033ac007cfa
GitHub仓库：https://www.php.cn/link/30c1778642a506dbd803a0fa5ece533e
HuggingFace模型页面：https://www.php.cn/link/150784e5fbeb562400a0cd1111471d6a
arXiv论文地址：https://www.php.cn/link/b783acd4479bf1b8a981bb023b363043

Step-Audio-EditX的应用领域

有声内容生产：适用于有声书、播客、新闻播报等内容创作，一键添加“喜悦”“悲伤”“耳语”等情绪或风格，无需重新录制即可生成多个情感版本，提升听众沉浸体验。
视频与广告配音：短视频、动画、广告可实现角色音色的零样本克隆，并通过叠加“撒娇”“夸张”“严肃”等风格快速生成多样化配音，降低人力成本，提高制作效率。
游戏与虚拟偶像：用于 NPC、虚拟主播、VTuber 等场景，只需一句参考语音即可克隆音色，并实时插入笑声、呼吸、叹气等副语言，构建更真实、生动的交互式语音系统。
智能客服与语音助手：可在标准 TTS 基础上动态调整情绪，将机械回复转为“热情”或“安抚”语调，提升服务亲和力；结合方言标签，满足区域化用户需求。
教育与语言学习：在线课程和语言类 APP 可使用“老人”“小孩”“耳语”等风格生成适龄语音，或将普通话自动转换为粤语、四川话等方言，辅助学生模仿练习，减少教师重复录音工作。
会议处理与无障碍支持：对嘈杂或存在长时间静音的会议录音，可先执行“降噪+静音裁剪”，再根据需要加快语速或注入适当情感，输出清晰易懂的纪要音频，便于听障人士理解或归档传播。

Stable Diffusion ControlNet怎么用 ControlNet插件安装及骨架图使用【进阶】

Mistral Vibe CLI— Mistral AI推出的开源命令行代码助手

DeepSeekOCR怎么部署到国产操作系统_统信UOS等系统DeepSeekOCR部署教程

DeepSeekOCR怎么部署到云服务器本地化_云服务器部署DeepSeekOCR并本地化使用教程

Notion数据库怎么版本控制_Notion数据版本管理与历史记录查看方法

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6031

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

778

2023.09.14