0

0

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

蓮花仙者

蓮花仙者

发布时间:2025-08-08 08:22:13

|

2396人浏览过

|

来源于php中文网

原创

下一代windows操作系统的曝光引发了广泛关注。微软首次为windows设计的智能体(agent)——ufo,基于gpt-4v技术,实现了在多个应用之间无缝切换,完成复杂任务的能力。整个过程无需人工干预,其执行成功率和效率是gpt-4的两倍,gpt-3.5的四倍。

例如,删除PPT演示文稿上的所有备注,UFO只需几步就能完成。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO此外,UFO还可以利用多个来源的文本,如Word文档和图像文本内容,来撰写电子邮件。

网友表示:这才是Windows级别应有的创新能力。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO首个Windows Agent——UFO,代号“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架。由MSRA、微软AI与应用研究团队等共同打造,用户可以通过自然语言指令操作App的用户界面。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFOUFO是首个为Windows OS环境中的任务完成量身定制的UI Agent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO以删除PPT上的所有注释为例,传统方法需要逐页手动删除,过程繁琐且耗时。但UFO在接收到指令后,简化了操作。它首先建议使用“删除所有演示笔记”功能,该功能因按钮位置隐蔽常被忽视。随后,UFO导航至“File”选项,访问后台视图;然后平滑切换到“info”菜单,点击“检查问题”按钮,选择“检查文档”以识别所有注释。接着,UFO识别出菜单底部的“删除所有演示笔记”,滚动定位并启动点击功能。考虑到误删的风险,UFO提供了一道保护机制,需要用户再次确认是否要删除所有注释。一旦确认,所有笔记瞬间消失。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO文章中还展示了其他几个场景的图文说明,如阅读PDF:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO设计PPT格式:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO下载Docker扩展:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO发布推文:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO搜索总结:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO阅读论文:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO以及如何在Word文档中利用UFO提取文本、描述图像、撰写并发送电子邮件等。

研究团队在9个常用Windows应用程序上测试了UFO,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够满足工作、交流、编码、阅读、网页浏览等需求。对于每个应用程序,团队设计了5个不同的请求,总共45个;另外还设计了5个跨多个交互应用程序的请求。总共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供了全面评估UFO的互动模式。

在评估指标方面,团队从成功度、步骤、完成率和保障率几个角度评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。由于没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并指示它们提供一步一步的指导来完成用户请求。

值得注意的是,UFO在WindowsBench上的成功率达到了86%,远超GPT-4,因此UFO可以被定位为一个高效的Agent。UFO的完成率也是最佳的,表明它能够采取更精确的动作;此外,UFO完成任务的步骤最少,安全度最高。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后,9个场景在WindowsBench上的详细得分如下:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO这样的操作系统级别的Agent是如何实现的呢?首先,UFO理解用户的自然语言要求,并将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。

LangChain
LangChain

一个开源框架,用于构建基于大型语言模型(LLM)的应用程序。

下载

架构上看,UFO是一个双Agent框架,主要由三个模块组成:应用智能体(AppAgent),选择一个应用程序满足用户请求;行动智能体(ActAgent),负责在所选应用中反复执行任务;交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析,并以桌面截图、App信息、记忆以及示例作为输入。UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。

然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供ActAgent观察。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFOActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO这一决定是基于ActAgent的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。

如果需要跨越多个应用程序,那么在ActAgent完成当前任务之后,ActAgent将把任务委托给AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO用户可以选择提出新的请求,促使UFO通过重复上述过程来处理新任务。

研究团队依据日常鼠标操作,还开发了自定义操作,如单击、选择文本、滚动等,以此来完成对于控件的操作。

主要有这些控制类型。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后介绍一下UFO的研究团队,其中大多数为华人。

通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)小组的高级研究员。他于2020年在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者Saravan Rajmohan,Microsoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。

参考链接:[1]https://www.php.cn/link/08c7bab8988c8f289a3e47c2700dac52 [2]https://www.php.cn/link/de06ce4800bd5a95f4dc7312700c3e3e [3]https://www.php.cn/link/612b1105e9636bffe0afd71b33a854a8

相关专题

更多
li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

406

2023.08.03

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

487

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1025

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

727

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

397

2023.08.02

windows无法访问共享电脑
windows无法访问共享电脑

在现代社会中,共享电脑是办公室和家庭的重要组成部分。然而,有时我们可能会遇到Windows无法访问共享电脑的问题。这个问题可能会导致数据无法共享,影响工作和生活的正常进行。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

2339

2023.08.08

windows自动更新
windows自动更新

Windows操作系统的自动更新功能可以确保系统及时获取最新的补丁和安全更新,以提高系统的稳定性和安全性。然而,有时候我们可能希望暂时或永久地关闭Windows的自动更新功能。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

763

2023.08.10

windows boot manager
windows boot manager

windows boot manager无法开机的解决方法:1、系统文件损坏,使用Windows安装光盘或USB启动盘进入恢复环境,选择修复计算机,然后选择自动修复;2、引导顺序错误,进入恢复环境,选择命令提示符,输入命令"bootrec /fixboot"和"bootrec /fixmbr",然后重新启动计算机;3、硬件问题,使用硬盘检测工具进行扫描和修复;4、重装操作系统。本专题还提供其他解决

1475

2023.08.28

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 5.9万人学习

Git 教程
Git 教程

共21课时 | 2.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号