首页 > 新闻 > 硬件新闻 > 正文

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

看不見的法師
发布: 2025-07-24 12:04:02
原创
451人浏览过

本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,专注于在 gpu、移动端、fpga 与 asic 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,其研究聚焦于计算机体系结构与 ai 系统的高效化设计。

在高质量视频生成任务中,扩散模型已成为主流技术。然而,随着视频时长和分辨率的提升,Diffusion Transformer(DiT)中的注意力机制计算量急剧上升,成为推理效率的核心瓶颈。这是因为 DiT 通常采用 3D 全局注意力来建模时空一致性,虽然效果显著,但其计算复杂度随 token 数量呈平方增长,带来巨大开销。以 HunyuanVideo 为例,注意力模块耗时占比超过 80%,仅生成 8 秒 720p 视频就需近一小时。因此,提升视频生成模型的速度迫在眉睫。

当前主流加速方法如 Sparse VideoGen(https://www.php.cn/link/982e5bfb1002e50e4c0cb2d3d144b55a AdaSpa(https://www.php.cn/link/60f24162e3a72b51963ce5956bda2ab4 GPU 上取得一定端到端加速效果。但受限于稀疏度不足及固定稀疏模式,这些方法难以实现内容感知的细粒度调控,缺乏对输入动态变化的适应能力。因此,亟需一种无需训练、硬件友好且具备动态调节能力的稀疏注意力机制,以推动视频扩散模型的实际应用。

近期,来自美国东北大学、香港中文大学及 Adobe Research 的联合团队提出了一种即插即用、无需训练的动态稀疏注意力加速方案——DraftAttention。该方法大幅降低注意力计算负担,在几乎不牺牲生成质量的前提下,实现高达 2 倍的 GPU 端到端推理加速。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
论文标题:DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
arXiv 地址:https://www.php.cn/link/bb9cad607e756782441e479ff3d13c8a
GitHub 主页:https://www.php.cn/link/2f1f0bdbb82e8f2a7ab031d8f2a13ee1

背景挑战

视频生成中,注意力模块是推理效率的主要瓶颈。如图所示(Figure 1),在 HunyuanVideo 中,当视频时长从 8 秒增至 32 秒,注意力计算量(FLOPs)占比迅速攀升至 90%以上,尤其在高分辨率下更为突出。根本原因在于:视频模型普遍使用时空全局注意力,其复杂度随 token 数量平方增长,而 token 数量又正比于帧数与空间分辨率——一旦提升清晰度或长度,计算量呈指数级上升,严重拖慢推理速度,难以满足部署需求。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
因此,引入稀疏注意力是有效路径。但现有方法多采用固定稀疏模式,无法根据文本提示、视频语义或扩散过程中的中间状态灵活调整,导致高稀疏率下质量明显下降。为此,设计一种能自适应输入语义与扩散步长的“动态稀疏”机制,成为维持生成质量的关键。

问题建模

视频生成常借助 3D VAE(变分自编码器)将原始视频压缩至隐藏空间(latent space),大幅减少 token 数量,同时保留核心结构信息。该空间具有三维形态(T×H×W),其中 T 表示压缩后帧数,H 和 W 对应空间维度。我们进一步观察到隐藏空间存在显著时空冗余:并非所有 latent token 都同等重要。基于此,本文提出关键思路——跳过低重要性 token 的注意力计算,在减少冗余的同时保留关键特征,从而实现高效加速且不损质量。

方法概览

为此,研究团队提出 DraftAttention:一种无需训练、动态可调、硬件友好的稀疏注意力机制。其核心思想为:

利用低分辨率“草图注意力图”快速估计 token 重要性,并据此指导高分辨率注意力的稀疏模式选择。

具体流程如下:

  1. 草图构建:对隐藏特征图进行空间下采样(如 8×8 平均池化),生成低分辨率 Query 与 Key;
  2. 草图注意力计算:基于下采样后的 Q/K 计算 Draft Attention Map,识别最具信息量区域;
  3. 稀疏模式引导:从草图中选取得分最高区域,生成结构化稀疏 Mask,用于指导高分辨率注意力;

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

  1. Token 重排优化硬件执行:为使稀疏区域连续分布、契合 GPU memory layout,提出 token 重排策略,显著提升稀疏计算效率;

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

  1. 即插即用、无需训练:该机制可无缝集成至现有视频扩散模型(如 HunyuanVideo、Wan2.1),无需额外训练或微调。

这一设计既从计算图层面削减冗余,也从系统执行角度增强稀疏算子的硬件亲和力,实现速度与质量双赢。

值得一提的是,DraftAttention 并非经验启发式方法,而是建立在坚实的理论基础之上。我们从两个维度证明其有效性:

即构数智人
即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台,支持数字人形象定制、短视频创作、数字人直播等。

即构数智人36
查看详情 即构数智人
  1. 近似误差可控:平均池化构建的 Draft Attention Map 与原图之间的 Frobenius 范数差异有界,且随 token 空间连续性增强而减小;
  2. 稀疏掩码误差有界:由草图提取的稀疏注意力模式引入的计算偏差同样可被严格限定在可控范围内。

两项理论结果共同表明:草图注意力在提供高质量稀疏引导的同时,不会破坏原始注意力机制的表达能力,为 DraftAttention 的实际表现提供有力支撑。

实验结果

我们在 HunyuanVideo 与 Wan2.1 等主流视频生成模型上全面评估 DraftAttention,重点关注生成质量与推理加速两方面。

对比代表性稀疏方法 Sparse VideoGen (SVG),在相同计算量下 DraftAttention 显著更优:

  • PSNR ↑:高分辨率下提升约 +2~+3 分;
  • SSIM ↑:结构一致性更强,视频更稳定;
  • LPIPS ↓:感知相似度更高,视觉更贴近真实;
  • VBench 多项指标(图像质量、主体一致性、背景连续性等)全面优于 SVG。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

尤其在高稀疏率(75%~90%)下,DraftAttention 能更好保持时空一致性与关键结构,而 SVG 等静态方法常出现模糊、断帧等问题。

在 NVIDIA H100 与 A100 GPU 上测试端到端加速效果:

  • 最高实现 1.75× 推理加速
  • 加速比随视频长度、分辨率与稀疏率同步提升,扩展性强;
  • 得益于 token 重排策略,稀疏注意力更具硬件友好性,执行效率显著提高。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

此外,我们提供多个 prompt 下的生成结果对比:

Prompt: "The banks of the Thames, as the camera moves vertically from low to high."

![无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention](/uploads/202

以上就是无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号