讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准

聖光之護

发布时间：2025-11-04 18:54:11

|

196人浏览过

|

来源于php中文网

原创

osworld-mcp 正式发布，标志着首个面向真实环境的 computer-use agents 产品能力全面评测基准正式落地。

OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准

作为 OSWorld 的增强版本，OSWorld-MCP 聚焦于评估模型上下文协议（MCP）工具调用、图形用户界面（GUI）交互能力以及智能决策水平，显著提升了测试的真实性、公平性与跨模型可比性。

OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准

核心亮点包括：

集成 158 个经验证的 MCP 工具，覆盖 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及系统实用程序等 7 大常用应用，其中 25 个为用于鲁棒性检验的干扰工具。
包含 250 项工具适用性任务，其中 69% 的基准任务能从 MCP 工具中获益。
支持多轮工具调用机制，极大增加了任务执行中的决策复杂度。
实验表明 MCP 显著提升性能——如 OpenAI o3 在 15 步内准确率从 8.3% 提升至 20.4%。
最高观测到的工具调用率（TIR）达 36.3%（Claude-4-Sonnet，50 步），反映出当前代理仍有巨大优化空间。
MCP 工具有效推动代理整体指标提升。
准确率随工具调用次数增加而上升，体现深度交互的价值。
多工具协同使用带来严峻挑战，考验模型推理与规划能力。

下图展示了 OSWorld-MCP 的完整评估架构，融合了 GUI 操作与 MCP 工具调用：

Dreamphilic

Dreamphilic

一个基于web的工具，为用户提供AI生成的内容。

下载

OSWorld-MCP 正式发布：面向 Computer-Use Agents 产品的评测基准

该项目现已开源，所有资源和详细文档均可通过以下链接获取：

https://www.php.cn/link/e0d04159c4304a1f2a5e191f551f3a94
https://www.php.cn/link/262e7707a161061c2b75c75215c2c4a9

相关文章

用数据照亮成长之路：PandaCoder Git 统计工具窗口

Git 3.0 有望在 2026 年发布，默认启用更安全的 SHA-256 哈希算法

JetBrains 宣布 DataGrip 面向非商业用途免费

Linus 对 Git 提交信息中“Link:”标签被滥用表达不满

开源 IDE 项目 Zed 完成 3200 万美元 B 轮融资

相关标签:

git go github 工具 office ai openai google claude vs code 架构 chrome github https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：苹果正式上线网页版 App Store，但意外泄露了完整前端代码下一篇：微软 CEO 纳德拉：公司或在一年内重启招聘，前提是现有员工掌握与 AI 协作技能

作者最新文章

“国补”PS5难掩Playstation在日本的颓势销量持续走低

2025-12-24 11:58

我在神界刷装备零氪钻石使用攻略

2025-12-24 12:17

IGN满分神作清单更新！63款游戏你玩过哪个？

2025-12-24 12:26

什么叫RPG游戏？连B社的制作人都不太清楚

2025-12-24 12:55

前R星技术总监：《GTA6》不太可能定价100美元但开发成本会创新高

2025-12-24 13:04

《代号三国：龙起》新视频钟晨瑶忘词很可爱

2025-12-24 13:08

曝索尼PSN账户严重安全漏洞！双重认证也难防入侵

2025-12-24 13:10

Steam新一周销量榜：《光与影：33号远征队》仅排第二《怪物猎人：荒野》上榜

2025-12-24 13:20

8.8元的神作！《杀戮尖塔》在线5.2万创下历史新高

2025-12-24 13:21

从良了！成人恐怖游戏《Project Werewulf》宣布推出全年龄版本

2025-12-24 14:07

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

chrome什么意思

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

709

2023.11.06

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1554

2024.08.16

虚拟号码教程汇总

虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程，阅读下面的文章了解更多详细操作。

30

2025.12.25

错误代码dns_probe_possible

错误代码dns_probe_possible

本专题整合了电脑无法打开网页显示错误代码dns_probe_possible解决方法，阅读专题下面的文章了解更多处理方案。

20

2025.12.25

网页undefined啥意思

网页undefined啥意思

本专题整合了undefined相关内容，阅读下面的文章了解更多详细内容。后续继续更新。

37

2025.12.25

word转换成ppt教程大全

word转换成ppt教程大全

本专题整合了word转换成ppt教程，阅读专题下面的文章了解更多详细操作。

6

2025.12.25

msvcp140.dll丢失相关教程

msvcp140.dll丢失相关教程

本专题整合了msvcp140.dll丢失相关解决方法，阅读专题下面的文章了解更多详细操作。

2

2025.12.25

笔记本电脑卡反应很慢处理方法汇总

笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法，阅读专题下面的文章了解更多详细内容。

6

2025.12.25

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Git 教程

Git 教程

共21课时 | 2.2万人学习

Git版本控制工具

Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册

Git中文开发手册

共0课时 | 0人学习

最新文章

更多

字节跳动团队发布 DreaMontage，帧引导视频生成技术

OpenAI 发布圣诞特别版模型：GPT-5.2-Codex-XMas

Qwen Code 正式发布 VSCode 插件 & TypeScript SDK

国安部提醒：违规使用开源 AI 工具会导致泄密

涂鸦智能发布 AI 生活助手 “Hey Tuya”

Selenium 创始人发布 Vibium，面向 AI Agent 的浏览器自动化架构

LG 将发布基于 AI 技术的新型游戏显示器：UltraGear evo

Liquid AI 最新实验性模型 LFM2-2.6B-Exp 发布

联想将在 CES 发布全球首款“AI 超级智能体”，对标豆包手机助手

圆周率计算世界纪录再被刷新：单台服务器持续运行 110 天，突破 314 万亿位数字

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部