AudioX— 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频-人工智能-PHP中文网

AudioX— 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

霞舞

发布： 2025-03-19 14:12:34

原创

982人浏览过

audiox：一款革命性的多模态音频生成模型

AudioX是由香港科技大学和月之暗面团队联合开发的先进统一扩散变压器模型，能够根据多种输入内容生成高质量音频和音乐。它支持文本、视频、图像、音乐和音频等多种输入模态，并通过创新的多模态掩码训练策略，显著提升了跨模态表示能力。

AudioX— 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

核心功能：

AudioX 的强大功能体现在以下几个方面：

多模态输入： 支持文本转音频、视频转音频、图像转音频、音乐生成以及音频修复和音乐补全等功能。例如，输入“雨声”，AudioX 可生成逼真的雨声效果；输入一段无声视频，AudioX 可根据画面内容自动添加相应的音效。
高质量音频输出： 基于扩散模型技术，AudioX 生成的高保真音频细节丰富，音质逼真。
精准的自然语言控制： 用户可通过自然语言精确控制音频生成过程，例如指定音效类型、音乐风格、乐器等。
强大的跨模态学习： AudioX 能有效整合不同模态的输入信息，例如同时输入文本和图像，生成更贴切的音频输出。
卓越的泛化能力： 在AudioCaps、VGGSound、MusicCaps、V2M-bench等多个数据集和任务上表现出色，展现了其强大的适应性和泛化能力。
零样本生成能力： 即使未针对特定模态进行专门训练，AudioX 仍能生成高质量音频，体现了其强大的通用性。

可灵大模型
可灵大模型（Kling）是由快手大模型团队自研打造的视频生成大模型

214

查看详情