Gemini 2.5 Computer Use— 谷歌推出的计算机使用模型

霞舞
发布: 2025-10-10 16:19:01
原创
538人浏览过

Gemini 2.5 Computer Use是什么

gemini 2.5 computer use 是由谷歌 deepmind 推出的一款基于 gemini 2.5 的先进计算机操作模型。该模型具备直接操控浏览器的能力,可执行点击、滚动、输入文本等用户界面操作。凭借强大的视觉理解与逻辑推理能力,它能够协助用户完成各类网页任务,例如提取网页信息或自动生成笔记。该模型在多项基准测试中展现出卓越性能,响应迅速。开发者可通过 google ai studio 和 vertex ai 平台接入使用,普通用户则可在 browserbase 提供的在线演示环境中体验其功能。

Gemini 2.5 Computer Use— 谷歌推出的计算机使用模型Gemini 2.5 Computer Use的主要功能

  • 浏览器控制:能够在浏览器中自主执行点击按钮、滚动页面、填写表单等基础操作,高效完成网页交互任务。
  • 复杂任务自动化:支持多步骤任务流程,如从某网站抓取数据并自动填入另一系统,或根据对话内容安排后续日程。
  • 视觉识别与决策推理:通过分析屏幕截图理解网页结构,识别可操作元素,并结合用户指令推断下一步最佳动作。
  • 安全防护机制:每次执行操作前,均由独立的安全服务进行风险评估;对于敏感行为(如提交支付信息),会主动请求人工确认,保障操作安全可控。

Gemini 2.5 Computer Use的技术原理

  • 核心能力实现:依托 Gemini API 新增的 computer_use 工具,使模型具备与图形用户界面直接交互的能力。
  • 输入输出机制
    • 输入内容:包括用户的自然语言指令、当前页面的截图、最近的操作历史记录。还可设置过滤规则以禁用特定UI操作,或集成自定义函数扩展能力。
    • 输出形式:模型返回的是代表具体操作的函数调用,如“点击坐标(x,y)”、“在输入框中键入文本”等。涉及高风险动作时,会生成确认请求交由用户审批。
  • 运行流程:采用循环迭代方式运行——每执行一个动作后,系统更新环境状态(获取最新截图和URL),并将新信息反馈给模型,启动下一轮决策,直至任务完成、出错、被安全机制拦截或用户终止。
  • 安全保障设计:在推理过程中,所有拟执行的操作均需经过独立安全模块审核。开发者可预设策略,要求模型在遇到高危场景(如尝试绕过验证码或操控关键设备)时必须停止并请求人工介入。

Gemini 2.5 Computer Use的项目地址

Gemini 2.5 Computer Use的应用场景

  • UI 自动化测试:为开发团队提供高效的界面测试方案,自动模拟用户操作流程,提升测试覆盖率与开发效率。
  • 智能个人助手:为用户提供个性化的数字助理服务,自动完成表单填写、会议预约、信息汇总等日常事务。
  • 企业流程自动化:简化跨系统重复性工作,如批量录入数据、聚合分散信息、执行跨平台任务,显著提高办公效率。
  • 客户支持增强:集成至客服系统中,自动响应常见请求,如创建工单、查询订单状态,加快服务响应速度。
  • 教育辅助工具:应用于在线学习平台,指导学生完成互动练习、模拟实验操作,提升学习参与度与效果。

以上就是Gemini 2.5 Computer Use— 谷歌推出的计算机使用模型的详细内容,更多请关注php中文网其它相关文章!

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号