斯坦福大学教授、world labs 联合创始人李飞飞近期发表了一篇题为《from words to worlds: spatial intelligence is ai’s next frontier》(从语言到世界:空间智能是ai的下一个前沿)的深度文章。
她指出,真正的智能远不止于“能对话”——更关键的是理解并操作物理世界的能力,即“空间智能”(Spatial Intelligence)。如果人工智能无法掌握空间推理、物体间的相互关系以及动态演变的预测,那么所谓的“通用人工智能”将始终停留在幻想层面。

她强调,空间智能是人类认知发展的根基,其起源远远早于语言。无论是婴儿尝试抓取玩具的动作,还是科学家通过X射线图像揭示DNA双螺旋结构;从古希腊人利用日影测量地球周长,到现代工程师规划自动驾驶路线——这些成就背后都离不开对空间布局、形态变化、运动规律和因果逻辑的深刻洞察。然而,当前主流的大模型尽管能够流畅地生成文本,却常常在判断“桌边的杯子是否会掉下去”这类基本物理情境时出现失误。
为了突破这一局限,李飞飞提出必须发展新一代的“世界模型”(World Model)——一种具备生成、交互与状态推演能力的多模态系统,能够真正模拟现实世界的运行机制。这类模型需要具备三项核心能力:
- 感知三维乃至四维(包含时间维度)的空间信息,而非局限于二维平面图像;
- 理解行为与结果之间的因果链条,例如“推倒积木塔”后引发的一系列连锁反应;
- 通过主动探索与环境互动来学习,而不是仅仅依赖被动接收标注数据。
实现这样的目标仍面临三大技术挑战:构建全新的训练范式以取代传统的“下一个词预测”机制;从大量视频数据中提取深层次的空间结构信息;以及设计支持3D/4D空间推理的新型神经网络架构。目前,李飞飞及其团队正致力于融合计算机视觉、具身智能与生成式AI技术,全力推进这一方向的研究。
在应用路径上,李飞飞描绘了清晰的发展蓝图:短期内,空间智能将推动影视、游戏和虚拟叙事的进步,实现更加逼真的动态场景生成;中期来看,服务机器人将能真正理解家庭环境,安全完成物品递送、照护老人等任务;长远而言,这项技术有望助力科学发现(如蛋白质折叠模拟)、精准医疗(如手术路径优化)以及沉浸式教育的发展。
此外,李飞飞再次重申她一贯坚持的观点:“AI的最终目的不是取代人类,而是增强人类的能力。”她呼吁学术界与产业界携手合作,共同打造一个开放、透明且负责任的空间智能生态系统,确保这项前沿技术的成果能够惠及全人类。










