随着以sora为代表的视频生成模型不断发展,长视频生成在保持长时间内容一致性以及协调生成质量与计算效率方面仍面临严峻挑战。浙江大学鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队聚焦这一关键技术难题,持续开展深入研究并取得突破性进展。基于昇腾ai基础软硬件平台,团队提出创新性技术方案,在显著增强长视频内容连贯性的同时,大幅提升生成过程的计算效率。
为应对长序列视觉指令生成中的核心瓶颈,研究团队成功构建了无需训练的长序列视觉指令生成框架LIGER,首次引入历史提示与视觉记忆机制,并融合基于DDIM反演的记忆校准策略。借助昇腾平台强大的编码加速能力,系统可在每一步生成过程中对图像特征进行高效采样与存储,有效提取前期关键视觉信息,并将其融入自注意力结构中,从而保障跨步长的视觉一致性。此外,框架集成自反思机制,可自动识别并修正图像中的属性偏差、逻辑矛盾、对象重复及身份错乱等问题,结合多种图像编辑工具实现精准修复。该方案在处理复杂长序列任务时展现出卓越的逻辑连贯性与对象属性准确性,显著增强了视觉指令的可理解性与应用价值。
在提升计算效率方面,团队提出一种面向昇腾平台优化的引导式渐进蒸馏方法,融合在线教师引导、渐进式知识蒸馏与高频细节保护三大核心技术,有效加速视频扩散模型的推理过程。该方法通过教师模型实时指导学生模型的中间层预测,构建动态自适应的学习目标;采用多阶段训练策略逐步扩大生成步长,将复杂的生成路径分解为易于学习的子任务;同时设计频域损失函数,确保视频细节纹理的高保真还原。在不牺牲视觉质量的前提下,整体生成速度实现8倍提升。
本项目开创性地融合大语言模型的推理能力与视频生成技术,推动多模态交互研究迈向新阶段。相关成果已成功被国际顶级人工智能会议ICLR 2025录用,获得全球学术界的广泛认可。团队同步发布了包含569个多样化任务的评测数据集,为后续研究提供了权威基准支持。
未来,浙江大学鲲鹏昇腾科教创新卓越中心将继续依托昇腾AI生态,深入推进产学研协同创新,聚焦多模态生成技术的关键瓶颈,致力于构建自主可控、技术领先的多模态生成体系,为我国人工智能战略实施和数字经济高质量发展积蓄核心动能。

以上就是昇腾算力赋能视频生成革命浙江大学团队攻克长时一致性难题的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号