Gemini 2.5 Computer Use— 谷歌推出的计算机使用模型-人工智能-PHP中文网

Gemini 2.5 Computer Use— 谷歌推出的计算机使用模型

霞舞

发布： 2025-10-10 16:19:01

原创

569人浏览过

Gemini 2.5 Computer Use是什么

gemini 2.5 computer use 是由谷歌 deepmind 推出的一款基于 gemini 2.5 的先进计算机操作模型。该模型具备直接操控浏览器的能力，可执行点击、滚动、输入文本等用户界面操作。凭借强大的视觉理解与逻辑推理能力，它能够协助用户完成各类网页任务，例如提取网页信息或自动生成笔记。该模型在多项基准测试中展现出卓越性能，响应迅速。开发者可通过 google ai studio 和 vertex ai 平台接入使用，普通用户则可在 browserbase 提供的在线演示环境中体验其功能。

Dream Machine

Dream Machine 是由 Luma AI 开发的一款 AI 视频生成工具，可以快速将文本和图像转换为高质量的视频内容。

157

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Gemini 2.5 Computer Use的主要功能

浏览器控制：能够在浏览器中自主执行点击按钮、滚动页面、填写表单等基础操作，高效完成网页交互任务。
复杂任务自动化：支持多步骤任务流程，如从某网站抓取数据并自动填入另一系统，或根据对话内容安排后续日程。
视觉识别与决策推理：通过分析屏幕截图理解网页结构，识别可操作元素，并结合用户指令推断下一步最佳动作。
安全防护机制：每次执行操作前，均由独立的安全服务进行风险评估；对于敏感行为（如提交支付信息），会主动请求人工确认，保障操作安全可控。

Gemini 2.5 Computer Use的技术原理

核心能力实现：依托 Gemini API 新增的 computer_use 工具，使模型具备与图形用户界面直接交互的能力。
输入输出机制：
- 输入内容：包括用户的自然语言指令、当前页面的截图、最近的操作历史记录。还可设置过滤规则以禁用特定UI操作，或集成自定义函数扩展能力。
- 输出形式：模型返回的是代表具体操作的函数调用，如“点击坐标(x,y)”、“在输入框中键入文本”等。涉及高风险动作时，会生成确认请求交由用户审批。
运行流程：采用循环迭代方式运行——每执行一个动作后，系统更新环境状态（获取最新截图和URL），并将新信息反馈给模型，启动下一轮决策，直至任务完成、出错、被安全机制拦截或用户终止。
安全保障设计：在推理过程中，所有拟执行的操作均需经过独立安全模块审核。开发者可预设策略，要求模型在遇到高危场景（如尝试绕过验证码或操控关键设备）时必须停止并请求人工介入。