清华大学联合快手可灵团队推出了一款全新的生成模型——svg(无 vae 潜在扩散模型),在图像生成领域实现了突破性进展。该模型不仅将训练效率提升了6200%,更在生成速度上实现了高达3500% 的飞跃,标志着对传统 vae 架构的重大超越。
长期以来,VAE 在图像生成中的应用受限于“语义纠缠”问题:当试图修改图像某一属性(例如猫的毛色)时,其他无关特征(如姿态、体型)也可能被意外改变,导致控制精度下降。为应对这一挑战,清华与快手团队设计了全新的 SVG 模型,摒弃传统 VAE 编码方式,转而构建一个既能保留高层语义又能捕捉细节纹理的统一特征空间。

SVG 的核心架构首先引入 DINOv3 预训练模型作为语义编码器。得益于其强大的自监督学习能力,DINOv3 能精准提取并分离图像中的类别级语义信息,有效避免了语义混淆。与此同时,研究团队开发了一个轻量化的残差编码器,专门负责捕获细微的局部结构和纹理细节,并确保这些信息与高层语义互不干扰。通过引入关键的分布对齐机制,两种特征得以高效融合,从而保障最终生成图像的质量与一致性。

实验证明,SVG 模型在多项指标上显著优于传统 VAE 方法。在 ImageNet 数据集上,仅经过80轮训练,SVG 即达到6.57的 FID 分数(越低表示生成图像越接近真实),性能远超同级别 VAE 模型。在推理阶段,SVG 同样表现出色,能够在极少采样步数下稳定输出高清晰度图像。更重要的是,其学习到的特征空间具备出色的泛化能力,可直接应用于图像分类、语义分割等下游任务,无需额外微调,极大增强了模型的实用性和部署灵活性。
以上就是清华与快手联手推出新型 SVG 扩散模型,训练效率暴增 6200%的详细内容,更多请关注php中文网其它相关文章!
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号