阿里通义实验室多模态交互团队正式开源全系列 gui 智能体基础模型——mai-ui,首次在统一架构中原生融合用户界面交互、mcp 工具调用与端云协同三大核心能力,依托自主演进的数据构建管线及大规模在线强化学习技术实现深度协同优化(当前已开放 2b 与 8b 两个规模版本)。
MAI-UI 的设计目标是打造一款真正理解并可执行复杂自然语言指令、在图形用户界面(GUI)环境中自主完成端到端任务的智能代理。它聚焦攻克现实世界中的关键难题:跨应用无缝协作、模糊/不完整语义解析、动态人机交互反馈,以及多阶段长流程任务的精准编排与容错执行。

相较于传统 AndroidWorld 测试基准,全新 MobileWorld 评测体系具备三大显著升级:难度更高、场景更实、操作更贴近真实手机使用习惯:
✅ 平均任务步长达 27.8 步(约为 AndroidWorld 的两倍)
✅ 超 60% 的任务需跨越多个 App 协同完成(涵盖电商比价、出行订票、日程管理等复合型场景)
✅ 首次设立两类前沿挑战任务:
- 交互式模糊指令任务:用户输入存在歧义或信息缺失时,模型需主动发起澄清提问,杜绝无依据臆测与幻觉输出;
- MCP-GUI 融合任务:同步调度外部工具接口(如 GitHub、Arxiv 等)与本地 GUI 操作,推动移动端智能体迈向工业级生产力水平。
目前主流 SOTA 方法整体成功率仅为 51.7%,而端到端黑盒模型表现更弱,最高仅达 20.9%;面对 MobileWorld 新增的高阶挑战任务,多数现有 Agent 的准确率已趋近于零!

相关资源直达链接:
?GitHub(MAI-UI):https://www.php.cn/link/3367366e0bff001c5cfb5aedd10d8e31
?Arxiv(MAI-UI 论文):https://www.php.cn/link/ebbd64681b7ba2379b3b4fe1ff1a2539
?GitHub(MobileWorld 评测框架):https://www.php.cn/link/e5337b6705bcd3099129719cee0d46e4
?Arxiv(MobileWorld 技术报告):https://www.php.cn/link/1049295f8ee6129ad4d8d84afac6f05f
源码获取地址:点击下载









