UnityVideo— 快手可灵联合港科大开源的视频生成框架-人工智能-PHP中文网

UnityVideo— 快手可灵联合港科大开源的视频生成框架

心靈之曲

发布： 2025-12-16 11:17:12

原创

561人浏览过

unityvideo 是由香港科技大学携手快手可灵团队、清华大学等机构联合研发的先进多模态、多任务视频生成框架。该框架通过深度融合多种视觉模态（如语义分割、人体骨架、深度图、光流等）以及创新训练范式，显著增强视频生成模型对现实物理规律的理解与建模能力。借助动态噪声注入机制与模态自适应学习策略，unityvideo 实现了 rgb 视频与各类辅助模态之间的双向协同学习，在加快模型收敛速度的同时，大幅提升了其在未见场景下的零样本泛化性能。

晓象AI资讯阅读神器

晓象-AI时代的资讯阅读神器

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
UnityVideo的核心能力

多模态协同生成：支持从文本提示出发，生成高保真 RGB 视频，并同步输出深度图、光流场、实例分割掩码、人体关键点骨架、DensePose 等多种辅助模态结果，从而提升视频的空间一致性与物理合理性。
精细化可控生成：允许用户以任意一种或多种模态（如深度图、光流、骨架序列等）作为条件输入，精准引导视频内容生成，满足特定结构、运动或几何约束需求。
跨模态反演估计：可从原始 RGB 视频中逆向推理出缺失的辅助模态信息（如深度、光流、分割、姿态等），实现对视频内容的细粒度多维解析。
强零样本迁移能力：无需额外微调即可在训练阶段未覆盖的新物体、新动作、新场景下稳定生成高质量视频，并准确恢复对应模态表征。
一体化多任务学习：在一个统一架构内无缝集成视频生成、条件可控生成、模态估计三大任务，通过联合优化提升整体鲁棒性与泛化边界。

UnityVideo的技术实现

统一扩散建模范式：基于扩散变换器（DiT）构建共享特征空间，将 RGB 视频与各类辅助模态统一编码与解码；采用动态噪声采样策略，在单次训练过程中随机切换任务类型（如条件生成、模态重建、联合建模），促使模型学习多模态联合分布。
模态感知参数调控：设计模态自适应开关模块（Modality-Adaptive Switcher），为每类模态配置专属的归一化参数（如 AdaLN 偏置与缩放系数），并引入上下文学习器（In-Context Learner），通过嵌入模态语义标签（如“depth map”“optical flow”）增强模型对模态身份的显式识别能力。
任务感知噪声调度机制：依据当前训练任务类型，差异化地向 RGB 和辅助模态施加噪声强度与时序分布，强化跨模态信号对齐；结合概率驱动的任务选择器，自动调节各子任务的学习权重，防止模型偏向简单任务。
渐进式课程学习流程：首先在单人主导、像素级对齐良好的数据子集（如深度+光流）上完成基础空间建模，随后逐步引入多人交互、遮挡复杂、模态异构等更具挑战性的样本，分阶段提升模型对真实世界多样性的适应能力。
开源多模态视频基准资源：发布 OpenUni 大规模数据集，涵盖 130 万组对齐的多模态视频片段，包含 RGB、深度、光流、分割、骨架等多种模态标注；配套推出 UniBench 综合评测基准，全面评估模型在生成质量、模态保真度、零样本迁移等方面的综合表现。