selenium 的原始作者最近发布了一款面向 ai agent 的新型浏览器自动化基础设施——vibium。

该项目的核心是一个用 Go 编写的轻量级单体二进制程序:Clicker。它内建了浏览器全生命周期控制、WebDriver BiDi 协议代理,以及符合 MCP 规范的服务端能力。
- 浏览器管控: 自动识别并启动支持双向通信的 Chrome 实例
- BiDi 代理: 基于 WebSocket 的命令中继服务,将指令精准转发至浏览器
- MCP 服务端: 提供标准化的 stdio 接口,适配各类 LLM 驱动的智能体
- 智能等待: 在执行操作前主动轮询目标元素状态
- 截图功能: 支持以 PNG 格式捕获当前视口画面
整体系统架构如下所示:
┌─────────────────────────────────────────────────────────────┐│ LLM / Agent ││ (Claude Code, Codex, Gemini, Local Models) │└─────────────────────────────────────────────────────────────┘ ▲ │ MCP Protocol (stdio) ▼ ┌─────────────────────┐ │ Vibium Clicker │ │ │ │ ┌───────────────┐ │ │ │ MCP Server │ │ │ └───────▲───────┘ │ ┌──────────────────┐ │ │ │ │ │ │ ┌───────▼───────┐ │WebSocket│ │ │ │ BiDi Proxy │ │◄───────►│ Chrome Browser │ │ └───────────────┘ │ BiDi │ │ │ │ │ │ └─────────────────────┘ └──────────────────┘ ▲ │ WebSocket BiDi :9515 ▼┌─────────────────────────────────────────────────────────────┐│ JS/TS Client ││ npm install vibium ││ ││ ┌─────────────────┐ ┌─────────────────┐ ││ │ Async API │ │ Sync API │ ││ │ await vibe.go() │ │ vibe.go() │ ││ │ │ │ │ ││ └─────────────────┘ └─────────────────┘ │└─────────────────────────────────────────────────────────────┘
借助 Vibium,像 Claude Code 这样的 AI Agent 只需发送标准 MCP 指令,即可实现对网页的完整操控。该方案内置浏览器自动发现与下载机制、元素就绪自动等待逻辑,并同时提供同步与异步两种调用方式,显著简化了 Agent 浏览器集成的复杂度。
开源地址:https://www.php.cn/link/34576207c8c0fab46627c880a109c01f
源码地址:点击下载










