nvidia 人工智能研究团队最新发布了 nitrogen——一款面向通用游戏代理的开源视觉-动作基础模型。该模型可直接从网络视频中学习,通过分析游戏画面与手柄操作信号,掌握商业游戏的游玩方式。整个训练过程累计消耗约 40000 小时真实游戏交互数据,覆盖超 1000 款游戏,并同步开源了高质量数据集、跨游戏通用模拟器以及预训练策略权重。

NitroGen 的数据构建起点为大量公开可获取的游戏实况视频,其中包含清晰的手柄操作可视化叠加层。研究团队共采集原始视频约 71000 小时,经严格质量筛选后保留 40000 小时高保真片段,涵盖来自 818 名内容创作者的 38,739 条视频。统计显示,这些视频涉及 846 款不同游戏:动作角色扮演(ARPG)类占比最高,达总游戏时长的 34.9%;平台跳跃类占 18.4%;动作冒险类占 9.2%;其余则分布于体育、Roguelike、竞速等多种类型中。
在动作信号提取环节,NitroGen 设计了一套三阶段精细化解析流程:第一步,利用 300 种常见手柄布局模板精准定位视频中的控制器叠加区域;第二步,调用基于 SegFormer 架构的语义分割模型对叠加层进行像素级识别与分类;第三步,对识别出的按键坐标与摇杆偏移量执行亚像素级校准。该流程显著提升了动作还原精度,为大规模行为克隆提供了坚实支撑。
与此同时,NitroGen 集成了一个轻量级通用模拟器,可将任意 Windows 平台商业游戏无缝封装为 Gymnasium 兼容接口,支持毫秒级帧同步交互,且完全无需修改原游戏二进制或源码。这一设计极大增强了策略模型的跨游戏泛化能力。
在模型架构层面,NitroGen 采用 Diffusion Transformer 作为核心策略网络,在 256×256 分辨率 RGB 输入图像上端到端建模视觉-动作映射关系。完成预训练后,模型在未见过的新游戏中展现出优异的零样本迁移能力,任务完成率稳定维持在 45%–60% 区间。进一步实验表明,相较于从零开始训练,使用 NitroGen 预训练权重进行微调,可在新游戏上实现最高达 52% 的性能增益。
源码地址:点击下载










