本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,专注于在 gpu、移动端、fpga 与 asic 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,其研究聚焦于计算机体系结构与 ai 系统的高效化设计。
在高质量视频生成任务中,扩散模型已成为主流技术。然而,随着视频时长和分辨率的提升,Diffusion Transformer(DiT)中的注意力机制计算量急剧上升,成为推理效率的核心瓶颈。这是因为 DiT 通常采用 3D 全局注意力来建模时空一致性,虽然效果显著,但其计算复杂度随 token 数量呈平方增长,带来巨大开销。以 HunyuanVideo 为例,注意力模块耗时占比超过 80%,仅生成 8 秒 720p 视频就需近一小时。因此,提升视频生成模型的速度迫在眉睫。
当前主流加速方法如 Sparse VideoGen(https://www.php.cn/link/982e5bfb1002e50e4c0cb2d3d144b55a AdaSpa(https://www.php.cn/link/60f24162e3a72b51963ce5956bda2ab4 GPU 上取得一定端到端加速效果。但受限于稀疏度不足及固定稀疏模式,这些方法难以实现内容感知的细粒度调控,缺乏对输入动态变化的适应能力。因此,亟需一种无需训练、硬件友好且具备动态调节能力的稀疏注意力机制,以推动视频扩散模型的实际应用。
近期,来自美国东北大学、香港中文大学及 Adobe Research 的联合团队提出了一种即插即用、无需训练的动态稀疏注意力加速方案——DraftAttention。该方法大幅降低注意力计算负担,在几乎不牺牲生成质量的前提下,实现高达 2 倍的 GPU 端到端推理加速。

论文标题:DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
arXiv 地址:https://www.php.cn/link/bb9cad607e756782441e479ff3d13c8a
GitHub 主页:https://www.php.cn/link/2f1f0bdbb82e8f2a7ab031d8f2a13ee1
视频生成中,注意力模块是推理效率的主要瓶颈。如图所示(Figure 1),在 HunyuanVideo 中,当视频时长从 8 秒增至 32 秒,注意力计算量(FLOPs)占比迅速攀升至 90%以上,尤其在高分辨率下更为突出。根本原因在于:视频模型普遍使用时空全局注意力,其复杂度随 token 数量平方增长,而 token 数量又正比于帧数与空间分辨率——一旦提升清晰度或长度,计算量呈指数级上升,严重拖慢推理速度,难以满足部署需求。

因此,引入稀疏注意力是有效路径。但现有方法多采用固定稀疏模式,无法根据文本提示、视频语义或扩散过程中的中间状态灵活调整,导致高稀疏率下质量明显下降。为此,设计一种能自适应输入语义与扩散步长的“动态稀疏”机制,成为维持生成质量的关键。
视频生成常借助 3D VAE(变分自编码器)将原始视频压缩至隐藏空间(latent space),大幅减少 token 数量,同时保留核心结构信息。该空间具有三维形态(T×H×W),其中 T 表示压缩后帧数,H 和 W 对应空间维度。我们进一步观察到隐藏空间存在显著时空冗余:并非所有 latent token 都同等重要。基于此,本文提出关键思路——跳过低重要性 token 的注意力计算,在减少冗余的同时保留关键特征,从而实现高效加速且不损质量。
为此,研究团队提出 DraftAttention:一种无需训练、动态可调、硬件友好的稀疏注意力机制。其核心思想为:
利用低分辨率“草图注意力图”快速估计 token 重要性,并据此指导高分辨率注意力的稀疏模式选择。
具体流程如下:


这一设计既从计算图层面削减冗余,也从系统执行角度增强稀疏算子的硬件亲和力,实现速度与质量双赢。
值得一提的是,DraftAttention 并非经验启发式方法,而是建立在坚实的理论基础之上。我们从两个维度证明其有效性:
两项理论结果共同表明:草图注意力在提供高质量稀疏引导的同时,不会破坏原始注意力机制的表达能力,为 DraftAttention 的实际表现提供有力支撑。
我们在 HunyuanVideo 与 Wan2.1 等主流视频生成模型上全面评估 DraftAttention,重点关注生成质量与推理加速两方面。
对比代表性稀疏方法 Sparse VideoGen (SVG),在相同计算量下 DraftAttention 显著更优:

尤其在高稀疏率(75%~90%)下,DraftAttention 能更好保持时空一致性与关键结构,而 SVG 等静态方法常出现模糊、断帧等问题。
在 NVIDIA H100 与 A100 GPU 上测试端到端加速效果:


此外,我们提供多个 prompt 下的生成结果对比:
Prompt: "The banks of the Thames, as the camera moves vertically from low to high."
![无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention](/uploads/202
以上就是无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号