最新基准测试表明,即使是目前最前沿的 ai 智能体(ai agents),在面对真实场景中的自由职业任务时仍显得力不从心,整体成功率不到 3%。

https://www.php.cn/link/7c294b263646ae5cff036e366de104cf
这项研究由 Scale AI 联合 Center for AI Safety(CAIS)共同开展,团队开发了一项名为 “Remote Labor Index”(远程劳动指数,RLI) 的评估体系,旨在量化 AI 智能体在真实、可付费的远程工作任务中的实际表现。测试任务源自 Upwork 等自由职业平台的真实项目,涵盖数据爬取、图像设计、视频剪辑、游戏开发以及行政协调等多种常见自由职业工作类型。

结果显示,即便表现最优的 AI 智能体,也仅能完成极小部分任务,其等效“收入”(按人类工作者计费标准折算)远低于人类同行。
研究强调,AI 智能体在处理多阶段流程、跨工具协同操作以及需求模糊或需反复沟通的任务时普遍存在严重短板。此外,它们缺乏长期记忆和项目持续迭代的能力,无法像人类一样在项目推进中不断学习与调整。
尽管在某些结构清晰、规则明确的单一任务中 AI 表现尚可,但要全面替代自由职业者或远程工作者仍相距甚远。研究团队建议,现阶段企业更应将 AI 定位为辅助工具,用于增强工作效率,而非完全取代人工执行复杂任务。
总体而言,该研究为当前火热的 AI Agent 市场注入了一剂理性:技术发展虽迅猛,但在应对现实世界复杂性方面仍有显著局限,人类在沟通理解、综合判断及多系统协作方面的优势依然难以被复制。
以上就是AI Agent 目前仍难胜任自由职业任务的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号