字节跳动近日推出了全新一代豆包手机助手的技术预览版本。与传统语音助手仅能完成设定闹钟、查询天气等基础任务不同,这款产品被赋予了“手机第二大脑”的全新定位。它融合了视觉感知、长期记忆以及自主操作能力,真正实现了替用户全面掌控和使用手机各项功能的智能体验。
该助手最令人瞩目的技术突破,在于首次在行业内实现了真正的端侧持久化记忆功能。这项能力让AI如同一位贴心的生活管家,能够记住用户日常中的各种细节信息。
在实际演示中,这一特性展现了惊人的实用性。当用户询问自己的车停在哪里时,助手可立即调取此前拍摄的停车位照片,并附上详细的楼层与位置指引。
当需要领取快递时,系统能迅速解析短信记录并准确报出取件码;而在用户问及高铁座位信息时,它会自动检索12306的购票历史,精准告知车厢与座位号。更进一步的是,这种记忆具备联想推理能力——例如,若系统已知用户钟爱凡高作品,则在规划巴黎行程时,便会主动推荐奥赛博物馆作为必去景点。

立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
如果说记忆是智能的基础,那么跨应用自动操作则是豆包手机助手的核心优势。借助先进的GUI模拟点击技术,它可以像真人一样操控屏幕,实现跨App的自动输入、点击与滑动。
在比价场景中,只需一句指令,豆包即可同时打开淘宝、京东、拼多多和抖音电商,3秒内完成价格对比,并直接跳转至最低价商品的支付页面。面对复杂的办公需求,如“帮我请三天假,顺便订回老家的高铁票”,助手能先在办公软件中填写请假申请并提交审批,随后无缝切换至12306完成购票与付款。
甚至连特斯拉车主也能享受便利:只需说一句“打开前备箱放东西”,助手便可远程发送指令,控制车辆执行相应动作。

在多模态交互方面,该助手展现出强大的实时视觉理解能力。当用户用摄像头对准一本英文绘本时,豆包手机助手将立即启动实时视频互动模式。
画面中不仅浮现中英双语字幕,AI还能以标准普通话或流利英语讲述故事,并与用户进行问答互动,甚至根据孩子的反应即兴改编情节,使阅读过程更加生动有趣。

针对复杂且模糊的长链条任务,豆包特别引入了Pro模式。该模式整合了GUI操作、API工具调用与高级推理能力,能够处理以往AI难以应对的综合性指令。
例如,当用户仅表达“下个月去巴黎,把收藏的餐厅标到地图上,再帮我订一张有我喜欢展览的博物馆票”时,助手便能自主完成整套流程:首先从记忆库确认用户偏爱凡高,接着查找发现奥赛博物馆正在举办相关特展,然后在地图应用中标注收藏的米其林餐厅,最后访问官网抢购门票并将完整行程单推送至备忘录。

在展现强大智能化的同时,字节跳动也高度重视隐私保护。官方强调,所有记忆数据均在设备本地处理并加密存储,绝不上传云端。
用户拥有完全控制权,可随时通过设置一键关闭记忆功能。这种设计既保障了极致的智能体验,又实现了真正的安全可控,为AI时代的个人隐私防护提供了创新范本。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号