近日,ai 初创企业 runway 正式发布全新视频生成模型 gen 4.5。在一项独立第三方基准测试中,该模型综合表现力超越谷歌与 openai 的同类竞品——谷歌 veo 3 居次席,openai sora 2 pro 排名第七。
Runway 成立于 2018 年,专注 AI 基础研究及视频大模型、世界模型(World Models)的开发。所谓“世界模型”,是指通过大量视频与真实世界观测数据训练而成的系统,旨在更精准地建模物理规律与环境动态。尽管团队规模仅约百人,但公司当前估值已达 35.5 亿美元,背后投资者涵盖 General Atlantic、Baillie Gifford、英伟达(NVIDIA)、Salesforce Ventures 等知名机构。
其客户覆盖广泛,包括主流媒体集团、影视制作公司、国际品牌方、视觉设计师、独立创作者乃至高校学生群体。Gen 4.5 支持基于文本提示(text prompt)生成高分辨率视频,在理解运动逻辑、人物姿态变化、镜头语言调度以及事件因果链条等方面展现出显著进步。
尤为突出的是,该模型对现实物理机制的理解能力大幅提升:可细致模拟液体流动轨迹、材质表面反光与褶皱、发丝随风摆动等微观动态,并保障整个视频序列中画面运动的连贯性与自然感。在风格适配层面,它既能输出电影级胶片质感影像,也能驾驭写实风格动画,应用弹性明显增强。
过往多数 AI 视频生成工具常出现违背常识的瑕疵——例如物体移动路径突兀、光影投射方向错乱、角色动作僵硬失真等。若 Gen 4.5 确能系统性缓解上述问题,则意味着行业正迈向一次实质性跃迁。本代模型不仅视觉保真度更高,还赋予用户更强的创作主导权,可产出细节饱满、节奏流畅、光影精准、动作可控的动态内容,部分指标已逼近专业影视工业水准。
据官方披露,新模型在预训练效率与后训练优化算法两方面均有突破,并重新定义了时间一致性(temporal consistency)与动作可控性(action controllability)的技术标准:人物面部不会无故变形,物体不会凭空闪现或消失,帧间过渡更加平滑稳定。
在权威 AI 视频模型评测平台 Video Arena(由 Artificial Analysis 运营)发布的 Elo 排行榜中,Gen 4.5 以 1247 分登顶,小幅领先 Google Veo 3 的 1226 分与 OpenAI Sora 2 Pro 的 1206 分。需指出的是,此次领先属微弱优势,并非压倒性胜出。
值得关注的是,Gen 4.5 是 Runway 与英伟达深度协同研发成果,全程依托 Blackwell 与 Hopper 架构 GPU 完成训练与推理。不过官方亦坦承,当前版本仍存在若干待解挑战,如个别场景下因果推理偶有偏差、物体在长时序中持续性尚未完全可靠,以及所谓“成功偏置”现象——即本应脱靶的箭矢却总能命中靶心,反映出模型对概率性结果的过度理想化倾向。
团队表示,这些正是构建真正稳健“世界模型”过程中不可避免的阶段性课题,将持续通过迭代升级予以优化。本次评测采用严格盲测机制:用户无法识别视频来源模型,仅依据观感进行二选一投票,确保评估结果客观公正。Video Arena 榜单即基于此类双盲对比实验持续更新。
Runway 首席执行官透露,Gen 4.5 的内部研发代号为 “David(大卫)”,灵感源自《圣经》中少年大卫迎战巨人歌利亚的经典隐喻,象征一家小型创业公司向科技巨头发起的正面挑战。“这是蛰伏七年后的集中爆发。如今已是效率与深耕并重的时代,我们希望推动生成式 AI 走向开放、多元、去中心化的未来,而非被少数几家企业所垄断。”
目前,Gen 4.5 已启动分阶段上线进程,预计本周内将全面向所有 Runway 注册用户开放。后续还将陆续推出多项重要功能更新,服务形式涵盖 Runway 自有平台、开发者 API 接口,以及部分战略合作伙伴渠道。
Gen 4.5 的横空出世,为全球 AI 视频生成赛道注入全新动能。对国内厂商而言,这既是警醒也是契机——不能再囿于低水平重复与内耗式竞争,而应聚焦核心技术攻坚,在国际舞台上亮出真正硬核实力。毕竟,唯有效率与扎实研究,才是可持续发展的底层逻辑。我们期待整个产业迎来更多原创性突破。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜











