MagicTryOn— 浙大联合vivo等机构推出的视频虚拟试穿框架-人工智能-PHP中文网

MagicTryOn— 浙大联合vivo等机构推出的视频虚拟试穿框架

霞舞

发布： 2025-05-31 14:50:02

原创

785人浏览过

MagicTryOn简介

magictryon是由浙江大学计算机科学与技术学院、vivo移动通信等单位共同研发的，采用视频扩散transformer的视频虚拟试穿系统。该系统摒弃了传统的u-net结构，转而应用更具表达力的扩散transformer（dit），并结合全自注意力机制来实现视频的时空一致性建模。系统通过从粗到细的服装保持策略，在嵌入阶段整合服装标记，并在去噪阶段引入语义、纹理及轮廓线等多种条件，从而高效地保存服装细节。magictryon在图像和视频试穿数据集上的表现优于当前最先进的方法，在各项评估指标、视觉效果以及实际场景中的适应能力方面均表现优异。

即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台，支持数字人形象定制、短视频创作、数字人直播等。

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
MagicTryOn的核心特性

服装细节还原：精准再现服装的材质、图案和边界，确保人物动作时的真实感与稳定性。
时空一致性构建：保障视频内各帧间的连续性，消除服装闪动和晃动现象，提供无缝的试穿感受。
多条件驱动：利用文本、图像特征、服装标记及轮廓线标记等多种条件，产出更加逼真且细腻的试穿成果。

MagicTryOn的工作机制

扩散Transformer（DiT）模块：DiT的设计便于灵活地加入条件信息，使多层级的服装特点能够无缝融入去噪过程。其内置的全自注意力机制可同时处理视频的空间与时间关系，捕捉帧内的局部细节与帧间的动态变化。
粗至细的服装维持方案：
- 粗略阶段：在嵌入环节，把服装标记（garment tokens）加入输入标记序列，扩展旋转位置编码（RoPE）的网格尺寸，保证服装标记与输入标记共用统一的位置编码。
- 精细阶段：在去噪环节，引入语义导向交叉注意力（SGCA）和特征导向交叉注意力（FGCA）模块，给予服装细节层面的具体指导。SGCA借助文本标记和CLIP图像标记作为输入，提供服装的整体语义描述；FGCA则结合服装标记和轮廓线标记，添加更详尽的局部信息。
掩码感知损耗（Mask-Aware Loss）：借助掩码感知损耗，模型可以集中关注服装区域的生成，增强服装区域的细节精度与综合合成结果的真实性。
时空一致性优化：依靠全自注意力机制同步构建视频的时空一致性，克服传统方法中单独处理空间与时间信息的不足。