香港大学与快手可灵团队近期联合发布论文《context as memory: scene-consistent interactive long video generation with memory retrieval》,提出了一种新颖的长视频生成框架——将过往生成的视频帧作为“记忆”(context-as-memory),借助context learning机制学习上下文依赖关系,从而有效维持长视频中场景的一致性。研究指出,该模型能隐式地从数据中捕捉3d结构先验,无需依赖显式的3d建模,这一思路与google deepmind最新推出的genie 3模型理念高度契合。
为高效处理可能无限延伸的历史帧序列,论文进一步引入基于相机视场(FOV)重叠度的记忆检索机制(Memory Retrieval),从全部历史帧中动态筛选出与当前生成视角最相关的帧作为条件输入。该策略显著减少了参与计算的上下文数量,大幅降低了训练和推理时的计算负担。
在数据集构建方面,团队利用Unreal Engine 5构建了包含多样化虚拟场景的长视频数据集,配备精确的相机轨迹标注,用于充分训练和验证所提方法。用户仅需提供一张起始图像,即可沿着预设或交互式相机路径,在生成的虚拟环境中自由漫游。
据论文介绍,Context as Memory 能在数十秒的时间跨度内稳定保持对原始场景中静态元素的记忆能力,并展现出良好的跨场景泛化性能。该方法致力于实现无需显式三维重建的、具有一致性的长视频生成。其主要创新点包括:
- 提出 Context as Memory 框架,将历史生成帧视为记忆存储,通过上下文学习实现无需3D建模的场景一致性长视频生成。
- 设计 Memory Retrieval 模块,采用基于相机FOV重叠的检索策略,动态选取关键历史帧作为记忆条件,极大提升了模型效率。
- 实验验证表明,该方法在长视频场景记忆能力上显著优于现有SOTA模型,并能在未见过的开放场景中保持良好的记忆连贯性。

如上图(a)所示,Context-as-Memory 的长视频生成基于自回归视频生成框架,结合context learning技术,将所有已生成的历史帧作为上下文输入,充当“记忆”的载体。
如上图(b)所示,为避免全历史帧参与带来的计算爆炸,研究团队设计了Memory Retrieval模块。该模块依据当前预测帧与历史帧之间的相机视场(FOV)重叠程度,动态检索最相关的关键帧作为记忆条件,有效减少了上下文学习负担,显著提升了训练与推理效率。
实验结果表明,相较于当前最先进的方法,Context-as-Memory 在长视频生成中的场景一致性与记忆保持能力方面均实现了显著提升。












