本文转载自:https://mp.weixin.qq.com/s/s13YBYD9R8y-PK7FO3Suyw 作者:OpenBMB开源社区
近日,字节跳动发布的豆包手机助手在业内激起了广泛讨论。这不仅是一款新智能硬件的亮相,更标志着大模型应用范式的一次重要跃迁——从“chat(对话)”真正迈向“action(行动)”。作为长期深耕大模型领域的研究者,我们将豆包手机助手定义为行业首款系统级 gui agent。它不再是一个孤立的智能应用,而是深度耦合于操作系统底层、具备跨应用感知与操作能力的“超级中枢”。
如何看待豆包手机助手的当下与未来?藉此机会,我们希望与大家分享我们眼中的手机助手,以及端侧智能的演进愿景与路线图。
GUI Agent 无疑是豆包手机助手的核心技术。为透视豆包手机助手的技术本质,我们有必要先回顾 GUI Agent 技术从实验室走向产业界的演进脉络。2023 年至 2025 年间,GUI Agent 技术经历了从“外挂式框架”到“模型原生智能体”的根本性范式转变:
GUI Agent 发展的最早期阶段(2023‑2024)采用外挂式框架,其核心思路是不改变大模型本身,而是通过提示工程将界面转化为模型可读的文本和函数接口(如 HTML/DOM 树,代表工作有 OSU 的 Mind2Web、腾讯的 AppAgent)或带数字标记的截图(Set‑of‑Mark,如阿里的 Mobile‑Agent‑v1)。这一阶段的智能体能力上限受限于提示词设计与外部工具(OCR、检测模型)的精度,模型并未真正“看见”GUI 环境,更多是在进行文本逻辑推理。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
后来,模仿学习驱动的视觉语言模型方案代替出现(2024)。随着视觉语言模型能力提升,技术路径转向模型内生。智谱的 CogAgent、我们的 GUICourse [1]、上交&MIT 的 OS‑Atlas 等工作摒弃了对 XML/DOM 等底层数据的依赖,直接基于像素输入理解界面,并输出坐标。这一阶段实现了感知层面的“原生化”,模型开始像人类一样通过“看”屏幕来理解界面布局,显著提升了对非结构化 GUI 的适应能力。
目前,强化学习驱动的视觉语言模型成为主流(2024‑2025)。其核心突破在于引入强化学习以解决复杂决策问题。伯克利的 DigiRL 首次验证了利用强化学习构建 GUI Agent 的可行性。在此基础上,智谱的 AutoGLM 和我们的 AgentCPM‑GUI [2] 进一步在大规模 GUI 任务中验证了强化学习的有效性。字节的 UI‑TARS 工作则引入大规模在线强化学习,使得智能体能在与 OS 环境的持续交互中优化策略,学会错误修正、长程规划与泛化应对。至此,GUI Agent 真正具备了在动态环境中自主执行任务的能力,而豆包手机助手正是这一技术路线的集大成者。

GUI Agent 的发展历程
而为何之前的 GUI Agent 多停留于 Demo 阶段,而豆包手机助手却接近了实用临界点?通过技术复盘,我们认为其在工程侧与模型侧完成了关键突破:
在工程侧,以往的 GUI Agent 方案多依赖 Android 无障碍服务或 ADB 调试,存在权限易屏蔽、高延迟以及“抢占前台焦点”干扰用户等致命缺陷。豆包手机助手凭借定制 OS 的优势,实现了“非侵入式”的系统级接管。据我们研判,其工程实现包含两大核心要素:
GPU Buffer 直读:绕过传统截图接口,在系统底层直接读取屏幕渲染缓冲区的数据,大幅降低了视觉信号获取的延迟。
虚拟屏幕后台进程:这是一个巧妙的工程技巧。为避免智能体操作抢占用户焦点,系统内部构建了第二块虚拟屏幕,AI 在后台不可见的虚拟屏幕上执行点击与滑动,而前台用户仍可正常使用。
而在模型侧,综合现有使用体验与技术特征判断,豆包手机助手采用端云协同的模型架构:
端侧模型:主要负责意图识别与任务路由。对于调节音量、亮度等简单任务,直接通过端侧模型调用本地系统 API 完成,实现毫秒级响应。
云侧模型:处理多步骤、跨应用的复杂任务(如跨 APP 订票)。该模型内部区分“思考”与“非思考”两种模式:非思考模式下以低时延直接执行;思考模式下会先进行任务拆解、流程规划与需求澄清,再进入执行阶段,以平衡响应速度与任务成功率。
RL 数据飞轮:其核心护城河在于建立了基于强化学习的数据闭环。通过高保真 OS 沙盒环境,模型经历了数百万次轨迹的探索与优化,高质量数据用于下一轮 SFT 训练,低质量数据回收至持续预训练阶段。这种工业级数据规模使其泛化能力显著优于学术界开源模型。
豆包手机助手的出现,标志着 GUI Agent 终于走出实验室的“玩具”阶段,开始具备实用价值。它揭示了一个事实:大模型不仅是大脑,更能接管屏幕、模拟触控,成为连接数字世界的“万能接口”。当然,若我们将目光投向更长远的未来,GUI 操控或许并非端侧智能的终局。 目前的 GUI Agent 本质上是一种“兼容旧生态”的过渡方案——它不得不通过模拟人类的视觉和触控,去适应那些并非为 AI 设计的图形界面。这种方式虽然通用,但链路过长、依赖屏幕渲染。 我们认为,随着端侧生态的成熟,手机助手的操控方式可能进一步兼容“APP/系统工具调用”与“生态级智能协同”:
APP/系统接口调用:相比于模拟点击,直接调用 APP 或系统的接口(API)具备更高的准确率和更短的执行链路。事实上,豆包手机助手在调节音量、亮度等系统级任务上,正是通过直接调用系统接口实现了毫秒级的零失误响应。虽然目前第三方 APP 厂商开放接口的意愿受限于商业博弈,但随着 AI 手机渗透率的提升,高频功能(如支付、打车、预订)必将从“视觉组件”封装为“语义接口”,供智能体高效调度。
APP 即智能体:目前的架构中,手机助手作为“大脑”需要承担极其沉重的认知负荷,它必须理解成千上万个 App 内部的微观逻辑。未来的 APP 或许不再仅仅是等待被操作的“工具”,而是演化为具备独立能力的“子智能体”。对于“规划差旅”这种超长程任务,主智能体仅需向下分发子任务,而具体的比价、选座、风控核验等繁琐步骤由 App 内部的子智能体在应用内自主闭环。这种分层协作模式将极大降低主智能体的认知负荷,通过生态级的智能分工,显著提升复杂任务的执行泛化性与鲁棒性。
豆包手机助手虽然目前主要依赖 GUI 技术,但其在系统层面的深度整合,实际上也为未来向 API 调用和多智能体协同演进展示了可能性。
豆包手机助手让大众看到了端侧智能的潜力。但从性能评测与应用生态来看,以它为代表的端侧智能体要想真正服务数十亿用户的智能化生活,仍需攻克三大方向难题:
首先,终端调用云侧模型存在安全风险。豆包手机虽采用端云协同架构,但绝大多数屏幕理解与操作任务仍严重依赖云侧 GUI 模型,这相当于将用户的数字生活全面映射至云端。“云侧接管一切”的模式在隐私安全、网络依赖和算力成本上均面临可持续性挑战,也触及了应用厂商将用户行为数据视为核心资产的红线。其直接后果是,豆包手机助手在市场博弈中已陆续暂停对微信、淘宝等核心应用的智能操作支持。我们判断,未来的 AI 手机生态不应是“云侧通吃”,而应遵循端云结合原则:云侧模型处理通用逻辑与专业需求;涉及用户隐私、实时交互的私有数据必须在端侧闭环。当前“端侧过轻”的架构缺陷,亟需通过构建本地“安全屋”来化解。
其次,智能体自主完成任务能力不足。我们在豆包手机助手发布后第一时间进行了高难度测评,并同时开展智谱 AutoGLM 的测评作为参照。结果显示,豆包手机助手在 59.86% 的复杂任务上取得成功,AutoGLM 等开源方案则成功率更低。失败案例复盘显示,核心问题集中在四方面:
生态覆盖有限:面对小红书、美团、淘宝等高频应用,智能体常因无法精准调起原生应用,被迫降级为网页搜索或通用问答,“服务直达”退化为“内容检索”。
复杂指令解析精度不足:模型对含多参数(时间、地点、价格)、多对象(私聊 vs 群聊)的复合指令理解存在缺陷,难以精准提取关键槽位信息。
动态环境执行鲁棒性缺失:面对网络波动、权限弹窗及风控校验时,模型缺乏中断恢复与替代方案规划能力,易因单点受阻陷入死循环。
长程交互上下文管理混乱:在多轮交互中,模型易受历史信息干扰,导致“最近”“附近”等时空约束被错误覆盖。
最后,个性化与主动服务能力不足。目前的豆包手机助手本质仍是“用户下令‑智能体执行”的被动工具。大模型拥有全人类通用知识,却唯独缺少对“你”的深度理解。它不知道你下班的习惯路线、点咖啡的糖度偏好,也无法在开会时自动拦截骚扰电话。真正的个人助理必须是“千人千面”的,这要求智能体能够利用端侧数据进行持续学习,形成专属用户的个性化记忆。当前的豆包手机助手仍偏向傻瓜式任务自动化,远未达到个性化主动服务的阶段。
综上所述,为应对隐私安全、环境感知、复杂任务决策与个性化服务四大挑战,未来的 AI 手机技术体系必须向 端侧智能(隐私安全)、全模态智能(环境感知)、自主智能(复杂决策)与 主动智能(个性化服务)四个方向持续演进。
现代移动操作系统的安全基石是“沙盒机制”,即应用间数据隔离、互不干扰。然而,系统级 GUI Agent的出现,本质是赋予了一个超级进程一把打开所有沙盒的“万能钥匙”。豆包手机助手的实践揭示了一个根本性矛盾:系统级智能体为实现“万能操作”所必需的全局视野,与用户对隐私和数据主权的根本诉求之间,存在着天然张力。而解决这一矛盾,是端侧智能走向普及的前提。
尽管厂商采用了“端云协同”架构,并宣称对密码输入等极端敏感场景进行本地处理,但在绝大多数日常场景下,海量用户行为数据的流向与控制权依然是一个不透明的“黑盒”。这导致了便利性与数据主权之间的根本博弈:如果每一次点击、每一屏浏览都需要经过云端审视,用户实际上是在向服务商让渡自己的“数字主权”。一旦这个超级智能体被攻破,后果将不堪设想。
正是基于对上述矛盾的深刻认识,我们认为,未来的AI手机生态绝不能是“云侧通吃”,而必须确立 “端侧原生、端云协同” 的根本原则,建立清晰的分工体系。端侧是 隐私的“守门人”与体验的“基石”:涉及用户隐私、实时交互、个人习惯的所有“私有域”数据与操作,必须在端侧形成闭环。用户是数据的唯一持有者,端侧模型充当隐私的“守门人”。这不仅是保护数据主权,也是实现毫秒级极致响应、提供“类人”交互体验的物理基础。云侧是专业的“智库”与广域的“连接器”,涉及海量知识、复杂逻辑推理或需要广泛互联的“专业域”任务,则可路由至云侧专家模型处理。云侧凭借其参数规模、知识广度与互联网连接,充当专业的智库。这一分工的改进是 将数据主权和安全闭环坚定地锚定在端侧。当智能真正在用户设备内部运行时,人机之间更容易建立起坚实的信任契约,这也是我们团队坚持“端侧原生”路线的根本原因。
将大模型能力装入边缘设备,面临功耗、存储和算力的多重约束。我们团队并未盲目追逐参数规模,而是围绕 “端侧、高效” 构建全栈技术壁垒,核心是提升模型的“能力密度”——即单位参数内蕴含的智能水平。因此,我们提出 “能力密度法则” :大模型能力密度每 3.5 个月翻倍。这意味着,技术创新的目标是以更小的模型实现更强的性能,这一规律反映了大模型发展从"尺度驱动"向"能效驱动"的必然转变。围绕这一法则,我们构建了“模型架构-数据治理-学习方法”的高能力密度制备技术体系,其中以模型架构技术为例,w在 稀疏模型架构 和 软硬协同的极限压缩与加速 两方面的工作,验证了这一技术发展方向的可行性:
稀疏模型架构:我们研发了如 BlockFFN [3] 和 InfLLM-V2 [4] 等技术,摒弃传统 Transformer 的全参数激活模式,实现计算资源的“按需分配”。在推理时仅激活极少部分相关神经元,尤其在处理长文本时,能将计算复杂度从二次方降低至线性,实现超高稀疏度,让端侧设备“跑得动、不发烫”。
软硬协同加速:针对“内存墙”瓶颈,我们融合投机采样与极低比特量化技术。通过“小模型起草、大模型验证”的协同解码,以及将参数压缩至 4 比特乃至更低,大幅降低内存带宽占用。我们开源的轻量端侧模型 MiniCPM 系列,累计下载超 1700 万次,并已落地众多主流终端设备。

大模型的能力密度在不断增强[7]
端侧智能不仅仅是技术路径的选择,更是价值取向的锚定。它通过将隐私闭环于设备、将响应提速至毫秒、将算力负担优化至可持续,从根本上解决了智能普及中的信任、体验与成本问题,是构建未来个人化、可信赖数字伴侣的必由之路。
包括豆包手机助手在内的当前 GUI Agent,在感知层面仍主要依赖“截图+上传”的静态处理模式。要实现真正的“类人”助手体验,智能体必须突破传统视觉语言模型的模态壁垒,具备在端侧深度处理文本、图像、视频、音频等多模态信息的能力。我们认为,下一代端侧智能感知将围绕 “统一架构下的全模态融合” 与 “实时流式的动态交互” 两个维度演进。
第一,架构演进需要从“多模态”走向“全模态”。当前主流多模态模型本质仍是“拼接式”架构,即通过连接器浅层对齐视觉/音频编码器与语言模型。这种范式限制了对跨模态细微关联(如语音语调与面部表情的同步性)的捕捉能力。随着 GPT‑4o 及 Gemini 系列模型的发布,全模态(Omni)正成为新前沿。这类模型旨在底层打通不同模态的表征空间,实现原生的理解与生成。在端侧算力受限的挑战下,我们的 MiniCPM‑o 系列模型验证了这一路径的可行性:我们摒弃臃肿的外部组件堆叠,通过统一建模将语音理解生成、视觉理解与文本处理集成到高效端侧基座中。这种架构统一不仅显著降低推理开销,更使智能体能像人类一样综合处理并行信号,为未来覆盖触觉、温度等更广泛物理信号奠定基础。我们相信,全模态感知能力是大模型走出屏幕、走进物理世界,支撑具身智能、自动驾驶等关键应用的重要基础。
第二,交互演进需要从“静态采样”走向“动态流式”。真实世界的多模态信息流是动态连续的,而非静态截图。当前大部分端侧智能体仅能处理离线采样数据,相当于对真实世界进行“切片”。这种“回合制”交互导致显著延迟,无法满足实时翻译、视频通话辅助等即时需求。为打破瓶颈,端侧感知必须向流式演进。我们研发的 MiniCPM‑o 2.6 通过多路时分复用的流式编码技术,在端侧设备上实现了对动态信息流的实时响应。模型无需等待语音说完或视频录完,而是在接收信息的同时进行增量式理解与决策。这种流式架构不仅大幅降低首 token 延迟,更实现“全双工”交互——用户可随时打断模型,模型也能敏锐捕捉插话时机。此外,针对流式处理可能丢失细节的问题,我们在底层融合了 LLaVA‑UHD [5] 的高分辨率处理技术,通过自适应切片策略,实现对任意长宽比图像的低功耗、低延迟高清编码。“流式传输+高清编码”的组合,让端侧智能体既能流畅“看”视频,也能精准捕捉一闪而过的文字细节(如屏幕报错代码),真正将电影《Her》中全天候、实时响应的智能伴侣带入现实。

大模型多模态能力的发展历史可视化
豆包手机助手的发布向行业展示,当大模型拥有足够数据与参数时,其在 GUI 上的拟人化表现可令人惊叹。然而,现阶段的端侧智能体(包括豆包、AutoGLM 等)在面对未见过的复杂场景时,成功率仍会明显下降。要让 AI 手机从“尝鲜”走向“常用”,除了堆叠数据,我们必须在智能体的 泛化性、自主性与长程性 这三个维度上实现机制级突破。

智能体的三大挑战
长程性指的是人类使用手机完成任务往往是跨越多个 APP、持续数分钟甚至数小时的长程交互。例如,“帮我基于这周邮件往来规划差旅日程并预订机酒”。这不仅需要跨应用操作,更要求智能体在漫长操作链中始终保持对核心目标的专注,不因中间弹窗或无关信息而“迷路”。目前的大模型受限于上下文窗口,往往“健忘”。随着交互步骤增加,关键信息(如出发日期、预算上限)易丢失或被稀释。真正的长程性需突破上下文窗口限制,引入类人的记忆架构:智能体应能自主决定将哪些关键信息写入长期记忆,哪些保留在工作记忆,并主动遗忘干扰决策的噪音数据,确保在长链操作中始终保持目标聚焦。
泛化性指的是智能体在没有见过的任务上的胜任程度。当前 GUI Agent(如 UI‑TARS)的能力很大程度上依赖于云侧大模型见过的海量 APP 界面截图与操作轨迹,本质是“基于经验的泛化”。然而,真实移动互联网环境高度碎片化且动态变化:APP 每日更新,界面布局可能进行 A/B 测试,同一 APP 在不同机型上的渲染也不同。若仅依赖云侧模型“背题库”式训练,一旦遇到小众 APP 或新版本界面,智能体便会瘫痪。未来的自主智能需具备 零样本泛化能力。这意味着智能体应像人类一样,通过理解 GUI 设计的通用语言(如放大镜代表搜索)与业务逻辑,在从未见过的全新 APP 中通过自主探索学会使用工具。这要求模型不再简单记忆像素位置,而是构建对数字世界的“世界模型”,理解操作与环境反馈间的因果关系,从而以更小参数规模实现对陌生环境的适应。
自主性指的是智能体应对动态环境的鲁棒性与自我修正的能力。真实端侧环境远比沙盒模拟器复杂。网络延迟、营销弹窗、系统权限拦截、页面加载失败皆是常态。目前的 Agent 多采用线性“观察‑思考‑行动”链路,一旦某步执行失败(如网络卡顿弹出重试窗口、优惠券领取失败、广告遮挡),智能体常因环境状态与预期不符而直接报错中止。真正拥有自主性的未来自主智能体应具备“反思”机制:
(1)执行验证:每执行一步后,自主验证环境反馈是否符合预期;
(2)错误恢复:遇到非预期状态(如误触广告进入第三方页面)时,具备“回退”与“重新规划”能力,甚至能通过探索性操作找到新路径,而非机械请求人类接管。只有具备这种能力,用户才敢真正放心地将手机交给智能体处理充满不确定性的复杂任务。
上述三大能力的实现,本质上都依赖于同一个底层逻辑——智能体必须在与动态环境的交互中不断学习和优化。单纯的监督微调(SFT)只能模仿人类已有的轨迹,而无法应对未知的变化。因此,自主强化学习 是下一代智能体的核心引擎。在这方面,我们团队的PRIME工作 [8] 将强化学习与过程奖励模型相结合,让智能体不仅关注最终结果,更能获得每一步推理过程的细粒度反馈,大幅提升了复杂逻辑任务的训练效率。在此基础上,团队的 AgentCPM-GUI、字节的 UI-TARS及智谱的 AutoGLM 均验证了利用强化学习在 GUI 场景下进行大规模探索学习对GUI Agent 泛化性、自主性提升的有效性。
总的来说,如果豆包手机助手当前的能力来自“读万卷书”(海量数据训练),那么下一阶段的自主智能则需要智能体学会“行万里路”(在动态环境中自主探索与适应)。只有攻克泛化性、自主性和长程性三大难题,AI 手机才能从“听话的执行者”进化为真正“可信赖的智能助手”。
从人机交互视角看,个人助手是否真正具备“辅助价值”,不取决于其功能数量或技术复杂度,而取决于一个核心标准:用户为指导智能体完成任务所付出的精力,必须显著小于用户亲自完成该任务所需的精力。一旦条件不成立,智能体便会从“助手”退化为“负担”。
目前的豆包手机助手等端侧智能体仍遵循“用户下令‑智能体执行”的被动范式。这导致用户在执行复杂任务(如“帮我规划周末去环球影城的行程”)时面临巨大认知负荷——需像填表一样依次确认出发时间、交通偏好、酒店预算和必玩项目。一旦交互成本超过直接操作 APP 的成本,智能体便成为“累赘”。因此,合格的个性化助手必须具备在 最少用户输入 条件下完成任务的能力。我们认为,下一代端侧智能必须完成从 “被动响应”到“主动智能” 的范式跃迁。所谓主动智能,并非简单“多做事”,而是指智能体能在不频繁打扰用户的前提下,持续感知环境、积累历史经验,并基于这些信息对用户的潜在需求进行预测和准备。
第一,从“被动指令执行”到“主动意图预测” 。当前助手多停留在字面解析阶段,依赖用户给出完整、明确的提示词。真正的个性化助手需具备“读心”能力,即基于端侧积累的历史行为、偏好演化及当前环境状态(时间、位置、屏幕内容),构建高精度用户画像。智能体不再被动等待唤醒,而是持续在后台进行环境感知与推理。例如,当用户周五晚上搜索“周边游”时,模型应结合历史数据自动识别“喜欢安静、预算中等、带宠物”的隐式约束,直接过滤嘈杂的热门景点。这种从“只听你说什么”到“懂你没说什么”的跨越,是智能体建立用户信任的基石。
第二,从“分步指导交互”到“预先填充确认” 。为解决“教 AI 做事太累”的痛点,交互必须从费力的“填空题”转变为轻松的“选择题”。主动智能体基于意图预判,能自动生成含关键参数的预填充指令。例如,在用户打开打车软件的瞬间,智能体根据日程与当前时间,直接弹出“打车去公司,预计 30 元”的建议卡片。用户只需点击“确认”,无需手动输入目的地。这种机制将用户认知负担从高强度“指导”降至低强度“审阅”。同时,主动性必须严守“克制”原则:仅当预测置信度极高或对用户价值显著时才主动介入,确保智能体是“默契的伴侣”而非“打扰的弹窗”。
在端侧实现这种高水平的主动智能并非遥不可及。我们的研究团队在 Proactive Agent [6]工作中验证了其技术可行性。针对主动服务缺乏训练数据的难题,我们创新构建环境模拟器,通过模拟用户在代码编写、文章写作、智能家居等场景下的交互序列,生成大规模“用户‑环境”交互数据集。实验证明,基于此数据训练的端侧模型能敏锐捕捉用户隐式意图。这表明我们完全有能力在端侧打造出具备深度洞察力的下一代个人助手。
综上所述,主动智能不是个性化助手的“加分项”,而是其走向实用与可信的 基础能力。只有当智能体能够以更低交互成本承担更多决策前与执行中的工作,个人助手才能真正从“会对话的工具”进化为“值得依赖的协作者”。

主动智能:从被动响应到主动服务(由 Gemini 生成)
基于技术成熟度与市场动态,我们对未来短期、中期及长期的行业格局做出如下研判:
在短期(1年内),我们判断更多手机助手将上市,应用与 OS 的博弈加剧。目前,字节(UI‑TARS)、智谱(AutoGLM)、面壁(AgentCPM‑GUI)等团队已证明 GUI Agent 具备商业化落地基础。未来几个月,我们将看到更多手机助手上市,“软硬对抗”将全面爆发:互联网大厂试图通过“应用层 OS 化”保住流量入口;手机厂商则必会死守 OS 底层权限,推出自研系统级智能体以捍卫主场。这种利益冲突将引发剧烈对抗:应用厂商可能通过加密传输、动态 UI 渲染等技术手段,对抗 GUI Agent 的视觉读取与模拟点击。传统 Web 端的“爬虫与反爬虫”对抗将在移动终端 GUI 层面重演。此阶段竞争将极其激烈,但也会反向推动技术能力爆发式增长。
而到中期(2~3年),自主学习能力将走向成熟,持续成长的“个人专属助手”形态会逐渐确立。在基础功能需求满足后,智能助手真正的差异化壁垒在于 “个性化”。云侧大模型虽强,却是“千人一面”的通用专家;唯有端侧模型能近距离接触用户全量数据。我们判断,随着端侧模型测试时学习技术的成熟,智能助手将从“静态工具”进化为“持续成长的个人专属助手”。它能基于用户历史行为数据持续自我迭代——知道你点咖啡的糖度偏好,熟悉你打车时的常用路线。这种“越用越聪明、越用越懂你”的特性只能由端侧模型实现,并将成为用户无法迁移的体验壁垒。

大模型高效发展道路:能力跃迁,能效提升
放眼长期(3‑5 年),端云协同架构走向终局,AGI 时代的新型端侧硬件形态涌现。高隐私操作(聊天、支付、相册)与高频轻量任务(定闹钟、调亮度)完全由端侧模型执行,形成本地闭环,确保数据主权与毫秒级响应。端侧算力无法解决的超复杂推理,或需连接广泛互联网服务的需求(如“全网比价并下单”),则在用户显式授权与脱敏后路由至云侧专家模型处理。随着端侧智能与云侧智能深度融合,用户对终端的交互将不再局限于屏幕,更自然的语音、手势交互将催生 AGI 时代的新硬件形态。手机可能不再是唯一载体,以智能座舱、AI 眼镜为代表的新型端侧硬件将涌现,承载 AGI 时代的个人助理功能。

AGI 时代必将出现新型智能硬件
豆包手机助手的出现,如同一面镜子,既映照出 GUI Agent 从实验室走向实用的技术跨越,也折射出端侧智能在隐私、泛化与交互范式上的现实挑战。它告诉我们:大模型若想真正融入每个人的数字生活,就不能只停留在“对话”,而必须学会“行动”;不能只依赖“云端”,而必须扎根“端侧”。而在互联网应用市场资源高度整合、手机等硬件巨头格局森然的当下,创新的出现必然不会一蹴而就,新玩家的入局也必定举步维艰。我们看到在过去半个月中,一个个 APP 被字节跳动官方宣布不再被豆包手机助手所支持,用户们最开始的兴奋感也逐步消退。然而,现在这并不是结束,甚至不是结束的开始。但,这或许是开始的结束。
OpenBMB 社区长期关注大模型的普惠化发展,MiniCPM 系列端侧大模型正是在端侧智能的思路牵引下应运而生。目前,MiniCPM 系列端侧大模型已经在最具落地条件的智能座舱等领域扎根发展。智能座舱不仅需要毫秒级的响应速度来处理导航、安全预警和娱乐系统,更需要深度学习用户习惯,实现无缝的个性化服务,并对数据隐私和安全性有极高的要求。而在未来,随着芯片算力的不断演进、大模型能力密度的不断增强,AIPC、手机助手乃至具身机器人的智能应用场景都将陆续成熟,端侧智能将会成为驱动智能硬件发展的越来越重要的动力,豆包手机助手的下一个形态也将会不再受到如今的质疑和困扰,迎来新生。
未来已来,路仍漫长。从被动执行到主动服务,从单一模态到全息感知,从固定规则到自主进化——端侧智能的每一次突破,都将使我们离那个“懂你、护你、助你”的个人超级助手更近一步。这不仅是技术的竞赛,更是对信任、隐私与人本价值的回归。我们相信,当智能最终在每个人掌心安全、高效且体贴地运行时,那才是人工智能真正闪耀的时刻。
➤ 参考文献
[1] Chen, Wentong, et al. "GUICourse: From General Vision Language Model to Versatile GUI Agent." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.
[2] Zhang, Zhong, et al. "AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2025: 155–180.
[3] Song, Chenyang, et al. "BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity." Second Conference on Language Modeling.
[4] Zhao, Weilin, et al. "Infllm-v2: Dense-sparse switchable attention for seamless short-to-long adaptation." arXiv preprint arXiv:2509.24663 (2025).
[5] Guo, Zonghao, et al. "Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.
[6] Lu, Yaxi, et al. "Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance." The Thirteenth International Conference on Learning Representations.
[7] Xiao, C., Cai, J., Zhao, W. et al. Densing law of LLMs. Nat Mach Intell7, 1823–1833 (2025).
[8] Cui, Ganqu, et al. "Process reinforcement through implicit rewards." arXiv preprint arXiv:2502.01456 (2025).
源码地址:点击下载
以上就是从豆包手机谈起:端侧智能的愿景与路线图的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号