无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention-硬件新闻-PHP中文网

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

看不見的法師

发布： 2025-07-24 12:04:02

原创

474人浏览过

本文第一作者为美国东北大学博士生沈轩，研究方向为高效人工智能，专注于在 gpu、移动端、fpga 与 asic 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏，其研究聚焦于计算机体系结构与 ai 系统的高效化设计。

在高质量视频生成任务中，扩散模型已成为主流技术。然而，随着视频时长和分辨率的提升，Diffusion Transformer（DiT）中的注意力机制计算量急剧上升，成为推理效率的核心瓶颈。这是因为 DiT 通常采用 3D 全局注意力来建模时空一致性，虽然效果显著，但其计算复杂度随 token 数量呈平方增长，带来巨大开销。以 HunyuanVideo 为例，注意力模块耗时占比超过 80%，仅生成 8 秒 720p 视频就需近一小时。因此，提升视频生成模型的速度迫在眉睫。

当前主流加速方法如 Sparse VideoGen（https://www.php.cn/link/982e5bfb1002e50e4c0cb2d3d144b55a AdaSpa（https://www.php.cn/link/60f24162e3a72b51963ce5956bda2ab4 GPU 上取得一定端到端加速效果。但受限于稀疏度不足及固定稀疏模式，这些方法难以实现内容感知的细粒度调控，缺乏对输入动态变化的适应能力。因此，亟需一种无需训练、硬件友好且具备动态调节能力的稀疏注意力机制，以推动视频扩散模型的实际应用。

近期，来自美国东北大学、香港中文大学及 Adobe Research 的联合团队提出了一种即插即用、无需训练的动态稀疏注意力加速方案——DraftAttention。该方法大幅降低注意力计算负担，在几乎不牺牲生成质量的前提下，实现高达 2 倍的 GPU 端到端推理加速。

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
论文标题：DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
arXiv 地址：https://www.php.cn/link/bb9cad607e756782441e479ff3d13c8a
GitHub 主页：https://www.php.cn/link/2f1f0bdbb82e8f2a7ab031d8f2a13ee1

背景挑战

视频生成中，注意力模块是推理效率的主要瓶颈。如图所示（Figure 1），在 HunyuanVideo 中，当视频时长从 8 秒增至 32 秒，注意力计算量（FLOPs）占比迅速攀升至 90%以上，尤其在高分辨率下更为突出。根本原因在于：视频模型普遍使用时空全局注意力，其复杂度随 token 数量平方增长，而 token 数量又正比于帧数与空间分辨率——一旦提升清晰度或长度，计算量呈指数级上升，严重拖慢推理速度，难以满足部署需求。

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
因此，引入稀疏注意力是有效路径。但现有方法多采用固定稀疏模式，无法根据文本提示、视频语义或扩散过程中的中间状态灵活调整，导致高稀疏率下质量明显下降。为此，设计一种能自适应输入语义与扩散步长的“动态稀疏”机制，成为维持生成质量的关键。

问题建模

视频生成常借助 3D VAE（变分自编码器）将原始视频压缩至隐藏空间（latent space），大幅减少 token 数量，同时保留核心结构信息。该空间具有三维形态（T×H×W），其中 T 表示压缩后帧数，H 和 W 对应空间维度。我们进一步观察到隐藏空间存在显著时空冗余：并非所有 latent token 都同等重要。基于此，本文提出关键思路——跳过低重要性 token 的注意力计算，在减少冗余的同时保留关键特征，从而实现高效加速且不损质量。