清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%-IT新闻-PHP中文网

清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%

心靈之曲

发布： 2025-10-29 16:41:18

原创

1004人浏览过

清华大学联合快手可灵团队推出了一款全新的生成模型——svg（无 vae 潜在扩散模型），在图像生成领域实现了突破性进展。该模型不仅将训练效率提升了6200%，更在生成速度上实现了高达3500% 的飞跃，标志着对传统 vae 架构的重大超越。

长期以来，VAE 在图像生成中的应用受限于“语义纠缠”问题：当试图修改图像某一属性（例如猫的毛色）时，其他无关特征（如姿态、体型）也可能被意外改变，导致控制精度下降。为应对这一挑战，清华与快手团队设计了全新的 SVG 模型，摒弃传统 VAE 编码方式，转而构建一个既能保留高层语义又能捕捉细节纹理的统一特征空间。

清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%

SVG 的核心架构首先引入 DINOv3 预训练模型作为语义编码器。得益于其强大的自监督学习能力，DINOv3 能精准提取并分离图像中的类别级语义信息，有效避免了语义混淆。与此同时，研究团队开发了一个轻量化的残差编码器，专门负责捕获细微的局部结构和纹理细节，并确保这些信息与高层语义互不干扰。通过引入关键的分布对齐机制，两种特征得以高效融合，从而保障最终生成图像的质量与一致性。

AI Code Reviewer

AI自动审核代码

112

查看详情

清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%

实验证明，SVG 模型在多项指标上显著优于传统 VAE 方法。在 ImageNet 数据集上，仅经过80轮训练，SVG 即达到6.57的 FID 分数（越低表示生成图像越接近真实），性能远超同级别 VAE 模型。在推理阶段，SVG 同样表现出色，能够在极少采样步数下稳定输出高清晰度图像。更重要的是，其学习到的特征空间具备出色的泛化能力，可直接应用于图像分类、语义分割等下游任务，无需额外微调，极大增强了模型的实用性和部署灵活性。

以上就是清华与快手联手推出新型 SVG 扩散模型，训练效率暴增 6200%的详细内容，更多请关注php中文网其它相关文章！