ai 编程助手 cursor 最近公布了一项内部评估结果:在应对超长周期、高度自主的软件开发任务时,openai 推出的最新版本 gpt-5.2 模型,在稳定性与任务一致性方面优于 anthropic 的 claude opus 4.5。
为深入检验模型的实际工程能力,Cursor 研究团队发起了一项极具挑战性的实验——从零开始完整实现一个具备基础功能的 Web 浏览器,涵盖 HTML 解析器、CSS 渲染引擎以及轻量级 JavaScript 虚拟机等核心底层模块。

测试表明,GPT-5.2 在涉及数百万行代码、持续数周的“马拉松式”开发流程中,展现出更强的指令理解精度与上下文维持能力,显著降低了长程任务中常见的“目标偏移”或“意图遗忘”现象。而 Claude Opus 4.5 尽管在短时、高密度推理任务中表现优异,但在面对此类超大规模系统构建时,更容易出现主动中断执行、简化设计路径,或过早将控制权交还给用户的情况。
目前,Cursor 已正式在其开发平台中集成 GPT-5.2 模型,以进一步探索 AI 代理独立承担传统需多人协作、耗时数月的复杂工程项目的能力边界。除浏览器项目外,该模型还成功实现了 Windows 7 兼容模拟器的构建,并完成了一个超百万行代码规模的跨平台系统迁移任务,有力印证了生成式 AI 在自主化工程实践中的突破性进展。











