
腾讯近期正式推出HunyuanWorld-Voyager,一款突破性的视频扩散框架,能够基于单张图像生成具有世界一致性的3D点云,支持用户按照自定义的相机轨迹进行沉浸式场景探索。
该模型被官方称为全球首个原生支持3D重建的超长距离世界模型,有望重塑AI驱动的虚拟现实、游戏开发以及仿真环境中的空间智能应用。HunyuanWorld-Voyager不仅能同步输出高精度的深度图与RGB视频,还可无需额外后处理步骤,直接用于高质量三维建模。
HunyuanWorld-Voyager的架构由两大核心模块构成。其一是“世界一致的视频扩散”模块,采用统一架构设计,能够在已有场景观测基础上,同步生成对齐的RGB视频与深度视频序列,保障全局场景的空间连贯性。其二是“长距离世界探索”模块,通过结合点云筛选机制与自回归推理,并引入上下文感知的一致性优化技术,实现高效、平滑的视频采样与场景延展。
为支撑模型训练,研发团队开发了一套高度自动化的数据构建引擎。该引擎能对任意输入视频自动估算相机位姿与真实尺度深度信息,完全无需人工标注,从而实现大规模、多场景训练数据的高效生成。依托这一流程,HunyuanWorld-Voyager融合了真实拍摄视频与虚幻引擎渲染内容,构建出一个涵盖超过10万段视频的大规模数据集。
实验证明,HunyuanWorld-Voyager在视频生成质量方面显著优于现有方法。在与四种开源可控制相机视频生成模型的对比中,其在PSNR、SSIM和LPIPS等多项指标上均取得最优结果,验证了其出色的视觉保真能力。同时,在3D重建任务中,所生成视频也展现出更强的几何一致性。
值得一提的是,HunyuanWorld-Voyager在WorldScore静态基准测试中斩获最高分,充分体现了其在相机路径控制与空间结构一致性方面的领先优势。这一突破不仅彰显了混元系列模型在3D生成领域的巨大潜力,也为未来智能空间建模技术的发展提供了全新方向。
以上就是腾讯开源具备原生 3D 重建能力的超长程世界模型:HunyuanWorld-Voyager的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号