MTVCrafter— 中科院联合中国电信等机构推出的人像动画生成框架-人工智能-PHP中文网

MTVCrafter— 中科院联合中国电信等机构推出的人像动画生成框架

DDD

发布： 2025-05-27 15:18:34

原创

766人浏览过

mtvcrafter 是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等多个研究机构共同开发的一款创新的人体图像动画框架，专注于从原始3d运动序列生成高质量动画。该框架通过引入4d运动标记化（4dmot）技术，直接对3d运动数据进行建模，从而绕过了传统方法中依赖2d渲染姿态图像的限制。此外，mtvcrafter 还采用了运动感知视频扩散transformer（mv-dit），利用独特的4d运动注意力机制和位置编码，以4d运动标记作为动画生成的上下文信息。在 tiktok 基准测试中，mtvcrafter 的 fid-vid 得分为6.98，较第二名提升了65%，显示了其卓越的泛化性能和稳定性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MTVCrafter— 中科院联合中国电信等机构推出的人像动画生成框架

百度智能云·曦灵

百度旗下的AI数字人平台

查看详情

MTVCrafter 的核心功能

高质量动画生成：能够直接处理3D运动序列，生成高度逼真、流畅且自然的人体动画视频。
广泛的泛化能力：不仅限于已知运动类型，还能适应全新的运动场景及不同角色设定，包括单人与多人、全身与局部动画，并兼容多种艺术风格（如卡通、像素风、水墨画以及写实风格）。
精准的运动调控：借助4D运动标记化与运动注意力机制，确保每一帧动画都符合预期，保持动作连贯性和准确性。
身份特征保留：在生成过程中始终保持源图像的身份特性，防止出现身份漂移或失真现象。

技术实现细节

4D运动标记化器（4DMoT）：采用编码器-解码器架构，结合2D卷积神经网络和残差模块来捕捉时间和空间上的变化，同时运用向量量化器将连续运动特征转换成离散化的标记形式，这些标记统一存储以便后续使用。
运动感知视频扩散Transformer（MV-DiT）：构建了一种专门针对4D运动数据设计的注意力模型，它能将运动标记与视觉元素相结合，通过4D旋转位置编码恢复丢失的空间时间关联。此外，还引入了分类器自由引导策略，结合无条件和有条件生成的学习结果，进一步优化输出质量并扩大适用范围。最后，采用简单的重复拼接方法整合参考图片与噪声视频潜在变量，保证最终成品的身份一致性。