Midscene v1.0 发布 - 视觉驱动，UI 自动化体验跃迁

聖光之護

发布时间：2025-12-26 17:01:26

669人浏览过

来源于php中文网

原创

midscene v1.0 发布 - 视觉驱动，ui 自动化体验跃迁

Midscene 是一款以视觉模型为核心、支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队正式推出 Midscene v1.0，全面拥抱视觉理解技术路线，为 UI 自动化带来更高稳定性与更强适应性。

视觉模型具备如下核心优势：

效果稳健 ：当前主流视觉模型（如 Doubao Seed 1.6、Qwen3-VL 等）已展现出高度一致性，在多数实际业务场景中可稳定交付结果
任务规划能力强 ：模型天然具备对 UI 流程的理解与拆解能力，能自主完成多步骤、跨界面的复杂操作序列
跨平台无依赖 ：不再受限于底层渲染框架。无论是 Android、iOS、桌面客户端，还是浏览器内渲染内容，只要能获取屏幕图像，Midscene 即可实现精准交互
上手门槛低 ：无需编写各类 selector 或解析 DOM 结构，开发者与模型之间的协作更直观，即使缺乏前端或原生开发经验的新手也能快速入门
Token 成本大幅降低 ：在舍弃 DOM 提取环节后，整体 token 消耗减少约 80%，不仅显著节省调用成本，也提升了本地推理响应速度
开源模型支持成熟 ：随着 Qwen3-VL 等高质量开源视觉模型持续演进（提供 8B、30B 等多种规格），私有化部署与定制化训练已成为现实选择

除基础交互外，Midscene 还引入 Planning（任务规划）与 Insight（界面洞察）两类高级意图，并支持为不同意图配置专属模型。例如：使用 GPT 系列模型负责高层动作编排，而由 Doubao 模型专注执行元素识别与定位。

多模型协同机制，让开发者可根据任务复杂度灵活调配算力资源，兼顾效率与精度。

针对运行时性能，v1.0 做出多项关键优化：

减少对设备系统接口的频繁访问，在保障安全前提下复用上下文缓存，使性能瓶颈更集中于模型推理侧
重构 Web 与移动端的 Action Space 设计，向模型提供语义更清晰、组合更合理的工具集合

回放报告作为开发者高频使用的调试利器，本次也迎来全面升级：

参数高亮视图：自动标注交互参数在截图中的具体位置，融合上下文图像，便于快速验证模型决策逻辑
主题美化：新增深色模式支持，提升夜间阅读体验与视觉舒适度
Token 使用统计：按所用模型维度汇总 token 消耗，辅助评估各场景下的资源开销与成本分布

Midscene MCP 服务的定位同步更新：其核心使命聚焦于“视觉驱动的 UI 操作抽象”。通过将 iOS / Android / Web 各端设备的 Action Space 中每一个原子操作封装为标准 MCP 工具，MCP 层向上统一暴露能力接口。

这一设计使开发者得以专注于构建具备业务语义的高阶 Agent，彻底摆脱底层 UI 控制细节的束缚，同时持续获得高成功率保障。

AITDK

免费AI SEO工具，SEO的AI生成器

下载

移动端能力全面升级

iOS 方面优化

全面兼容 WebDriverAgent 5.x 至 7.x 各版本
新增 WebDriver Clear API 支持，有效应对动态输入框清空失败问题
显著增强对新旧机型及系统版本的适配能力

Android 方面优化

引入截图轮询失败自动降级机制，大幅提升远程真机环境下的鲁棒性
新增屏幕方向智能识别与 displayId 截图适配，确保横竖屏切换场景下定位准确
YAML 脚本中新增 runAdbShell 指令支持，扩展底层调试与控制能力

跨平台增强

在 Agent 实例层面开放系统级操作接口，涵盖 Home 键、返回键、最近任务等常用系统行为

API 及环境变量调整（均保持向后兼容）

方法名称变更：

aiAction() → aiAct()（旧方法仍可用，但会触发弃用警告）
logScreenshot() → recordToReport()（旧方法保留，附带弃用提示）

环境变量名称变更：

OPENAI_API_KEY → MODEL_API_KEY（优先读取新变量，旧变量作为兜底选项）
OPENAI_BASE_URL → MODEL_BASE_URL（新变量优先生效，旧变量兼容保留）

源码地址：点击下载

挥别换机焦虑！苹果携手Google简化iPhone和Android系统间切换程序

2D一秒变3D！Google新AI联手三星、高通让Android XR变黑科技

苹果和谷歌联手合作，简化 iPhone 与 Android 双向迁移数据流程

智谱开源“会操作手机的 AI Agent”：AutoGLM

ChatGPT Android 测试版出现广告功能代码

驱动精灵

驱动精灵基于驱动之家十余年的专业数据积累，驱动支持度高，已经为数亿用户解决了各种电脑驱动问题、系统故障，是目前有效的驱动软件，有需要的小伙伴快来保存下载体验吧！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：华硕澄清：没有投入内存晶圆厂的计划下一篇：成都开通首批条无人机血液配送航线，运输时间缩短 50% 以上

作者最新文章

“国补”PS5难掩Playstation在日本的颓势销量持续走低

2025-12-24 11:58

我在神界刷装备零氪钻石使用攻略

2025-12-24 12:17

IGN满分神作清单更新！63款游戏你玩过哪个？

2025-12-24 12:26

什么叫RPG游戏？连B社的制作人都不太清楚

2025-12-24 12:55

前R星技术总监：《GTA6》不太可能定价100美元但开发成本会创新高

2025-12-24 13:04

《代号三国：龙起》新视频钟晨瑶忘词很可爱

2025-12-24 13:08

曝索尼PSN账户严重安全漏洞！双重认证也难防入侵

2025-12-24 13:10

Steam新一周销量榜：《光与影：33号远征队》仅排第二《怪物猎人：荒野》上榜

2025-12-24 13:20

8.8元的神作！《杀戮尖塔》在线5.2万创下历史新高

2025-12-24 13:21

从良了！成人恐怖游戏《Project Werewulf》宣布推出全年龄版本

2025-12-24 14:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6028

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

778

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1044

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1062

2024.03.01

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

980

2023.10.19