一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

王林

发布时间：2023-05-05 14:55:06

1134人浏览过

来源于51CTO.COM

转载

仅输入一行文本，就能生成 3D 动态场景？

没错，已经有研究者做到了。可以看出来，目前的生成效果还处于初级阶段，只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

在最近的一篇论文中，来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

论文链接：https://arxiv.org/abs/2301.11280
项目链接：https://make-a-video3d.github.io/

具体而言，该方法运用 4D 动态神经辐射场（NeRF），通过查询基于文本到视频（T2V）扩散的模型，优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出，并可以合成到任何 3D 环境中。

MAV3D 不需要任何 3D 或 4D 数据，T2V 模型只对文本图像对和未标记的视频进行训练。

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果：

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

此外，它也能从图像直接到 4D，效果如下：

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

拍我AI

AI视频生成平台PixVerse的国内版本

下载

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

研究者通过全面的定量和定性实验证明了该方法的有效性，先前建立的内部 baseline 也得到了改进。据悉，这是第一个根据文本描述生成 3D 动态场景的方法。

方法

该研究的目标在于开发一项能从自然语言描述中生成动态 3D 场景表征的方法。这极具挑战性，因为既没有文本或 3D 对，也没有用于训练的动态 3D 场景数据。因此，研究者选择依靠预训练的文本到视频（T2V）的扩散模型作为场景先验，该模型已经学会了通过对大规模图像、文本和视频数据的训练来建模场景的真实外观和运动。

从更高层次来看，在给定一个文本 prompt p 的情况下，研究可以拟合一个 4D 表征，它模拟了在时空任意点上与 prompt 匹配的场景外观。没有配对训练数据，研究无法直接监督一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害的输出；然而，给定一系列的相机姿势就可以从渲染出图像序列并将它们堆叠成一个视频 V。然后，将文本 prompt p 和视频 V 传递给冻结和预训练的 T2V 扩散模型，由该模型对视频的真实性和 prompt alignment 进行评分，并使用 SDS（得分蒸馏采样）来计算场景参数 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的扩展，为场景模型添加了一个时间维度，并使用 T2V 模型而不是文本到图像（T2I）模型进行监督。然而，要想实现高质量的文本到 4D 的生成还需要更多的创新：

第一，需要使用新的、允许灵活场景运动建模的 4D 表征；
第二，需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性，该方案利用几个 motion regularizer 来生成真实的运动；
第三，需要使用超分辨率微调（SRFT）提高模型的分辨率。

具体说明见下图：

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

实验

在实验中，研究者评估了 MAV3D 从文本描述生成动态场景的能力。首先，研究者评估了该方法在 Text-To-4D 任务上的有效性。据悉，MAV3D 是首个该任务的解决方案，因此研究开发了三种替代方法作为基线。其次，研究者评估了 T2V 和 Text-To-3D 子任务模型的简化版本，并将其与文献中现有的基线进行比较。第三，全面的消融研究证明了方法设计的合理性。第四，实验描述了将动态 NeRF 转换为动态网格的过程，最终将模型扩展到 Image-to-4D 任务。

指标

研究使用 CLIP R-Precision 来评估生成的视频，它可以测量文本和生成场景之间的一致性。报告的指标是从呈现的帧中检索输入 prompt 的准确性。研究者使用 CLIP 的 ViT-B/32 变体，并在不同的视图和时间步长中提取帧，并且还通过询问人工评分人员在两个生成的视频中的偏好来使用四个定性指标，分别是：(i) 视频质量；(ii) 忠实于文本 prompt；(iii) 活动量；(四) 运动的现实性。研究者评估了在文本 prompt 分割中使用的所有基线和消融。

图 1 和图 2 为示例。要想了解更详细的可视化效果，请参见 make-a-video3d.github.io。

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

结果

表 1 显示了与基线的比较（R - 精度和人类偏好）。人工测评以在特定环境下与该模型相比，赞成基线多数票的百分比形式呈现。

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

表 2 展示了消融实验的结果：

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

实时渲染

使用传统图形引擎的虚拟现实和游戏等应用程序需要标准的格式，如纹理网格。HexPlane 模型可以轻易转换为如下的动画网格。首先，使用 marching cube 算法从每个时刻 t 生成的不透明度场中提取一个简单网格，然后进行网格抽取（为了提高效率）并且去除小噪声连接组件。XATLAS 算法用于将网格顶点映射到纹理图集，纹理初始化使用以每个顶点为中心的小球体中平均的 HexPlane 颜色。最后，为了更好地匹配一些由 HexPlane 使用可微网格渲染的示例帧，纹理会被进一步优化。这将产生一个纹理网格集合，可以在任何现成的 3D 引擎中回放。

图像到 4D

图 6 和图 10 展示了该方法能够从给定的输入图像产生深度和运动，从而生成 4D 资产。

一行文本，生成3D动态场景：Meta这个「一步到位」模型有点厉害

更多研究细节，可参考原论文。

Midjourney 如何生成 8K 电影感画面？Raw 模式与灯光参数【干货】

Kimi 助手如何一次性阅读 50 个文件？多文档对比分析设置【攻略】

Midjourney生成矢量图提示词_扁平风格图标设计【设计】

营销人员必看：如何用AI写出高转化率的广告文案

AI绘画关键词怎么写？Midjourney咒语生成器使用方法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：重金押注ChatGPT，微软能否撼动谷歌搜索霸主地位？下一篇：学习效率翻倍，用ChatGPT来学习SQL数据分析

作者最新文章

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Java编译相关教程合集

本专题整合了Java编译相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

C++多线程相关合集

本专题整合了C++多线程相关教程，阅读专题下面的的文章了解更多详细内容。

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证（CAAC执照）报考需年满16周岁，初中以上学历，身体健康（矫正视力1.0以上，无严重疾病），且无犯罪记录。个人需通过民航局授权的训练机构报名，经理论（法规、原理）、模拟飞行、实操（GPS/姿态模式）及地面站训练后考试合格，通常15-25天拿证。

2026.01.21

Python多线程合集

本专题整合了Python多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

java多线程相关教程合集

本专题整合了java多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell（管理员），运行 irm https://get.activated.win | iex 脚本，按提示选择数字激活（选项1）。其他方法包括使用HEU KMS Activator工具进行智能激活。

2026.01.21

excel表格操作技巧大全表格制作excel教程

Excel表格操作的核心技巧在于熟练使用快捷键、数据处理函数及视图工具，如Ctrl+C/V（复制粘贴）、Alt+=（自动求和）、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率，实现快速录入、查找、筛选和汇总。

2026.01.21

毒蘑菇显卡测试网站入口毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/，该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力，用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能；测试兼容多种设备，但中低端手机易卡顿或崩溃，高端机型可能因发热降频影响表现，桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

2026.01.21