首页 > 新闻 > 手机新闻 > 正文

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

雪夜
发布: 2025-12-12 16:42:08
原创
798人浏览过

12月10日,量子位meet2026智能未来大会在北京正式拉开帷幕。本届大会以“共生无界 智启未来”为核心主题,构建起一个横跨多领域、信息密度高、互动性强的思想交汇平台。近三十位来自科技界、产业界与学术界的权威代表齐聚现场,围绕人工智能+、ai基础设施(ai infra)、智能终端、智能驾驶、低空经济、能源电力等前沿方向展开深度探讨,分享具有前瞻性的行业洞见。

高通公司AI产品技术中国区负责人万卫星受邀出席,并带来题为《混合AI:从云端到边缘的智能演进》的主题演讲。他在演讲中指出,当前AI正经历由生成式AI向智能体AI的关键跃迁;与此同时,AI生态也正从单一模型架构加速转向多模型协同的复合体系——这正是迈向智能体AI时代的重要基石。他还强调,未来AI体验将全面走向“混合AI”范式。为支撑这一趋势,高通已通过模型量化压缩、并行解码优化、专用NPU设计及异构计算架构等核心技术突破,持续推动端侧AI向更主动、更高效、更个性化的服务形态升级,加快构建端云一体化协同体系,为用户打造真正可信赖的智能体验。

量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构

以下为演讲全文:大家上午好!我是高通技术公司万卫星。今天非常荣幸能在这里与各位分享高通在终端侧AI以及混合AI方向上的实践进展与战略思考。

首先,我们来梳理一下AI应用在终端领域的演进脉络。第一阶段,我们称之为“感知AI”。它涵盖语音降噪、图像识别与分割、传统自然语言处理等技术,这些能力早已在智能手机、耳机、摄像头等多种终端设备上实现规模化商用。

第二阶段,则是以ChatGPT为代表掀起的“生成式AI”浪潮。该阶段依赖海量数据预训练,并在人类指令或监督下完成特定任务,例如文生图、对话交互、机器翻译等,展现出强大的内容生成能力。

第三阶段,即正在加速到来的“智能体AI”。相较于生成式AI,智能体AI具备更强的自主性——它可在极少甚至无需人工干预的前提下,完成意图识别、动态规划、任务分解与执行闭环。尽管当前行业焦点仍集中于生成式AI,但整个技术演进路径已清晰指向智能体AI这一更高阶形态。

第四阶段,我们定义为“物理AI”。在此阶段,AI不仅理解语义与逻辑,更能感知并建模真实物理世界,依据物理规律进行推理与响应。目前,物理AI仍处于实验室探索与早期验证阶段。

再来看终端侧生成式AI的发展现状。随着模型规模持续扩大,如今旗舰手机已可部署参数量达百亿级的大模型;PC端则支持约200亿参数模型的本地运行;而在车载场景中,终端侧可承载的模型参数量更高达200亿至600亿之间。

模型规模增长的同时,性能也在同步跃升。今年年初起,具备思维链(CoT)与强推理能力的模型已实现全量端侧部署;上下文窗口长度亦显著扩展——从两年前仅支持1K–2K tokens,到去年提升至4K,再到今年主流终端已稳定支持8K–16K上下文长度;更值得关注的是,在今年9月举办的骁龙峰会上,我们已成功演示了在特定场景下端侧运行128K长文本大模型的能力。

从模态维度看,终端AI正快速由单文字模态,拓展至图文、音视频等多模态融合,并进一步迈向覆盖全感知通道的“全模态AI”。

Ghiblio
Ghiblio

专业AI吉卜力风格转换平台,将生活照变身吉卜力风格照

Ghiblio 157
查看详情 Ghiblio

接下来,我们谈谈终端侧运行AI的核心优势与现实挑战。其最大价值在于“个性化”与“隐私友好”:数据产生于终端、处理于终端,天然保障用户隐私安全;同时,端侧AI不依赖网络连接,且无需额外付费,具备极高的使用自由度。

但挑战同样突出。我重点提两点:一是内存瓶颈——终端有限的RAM容量直接制约可部署模型的参数规模与能力上限;二是带宽限制——受限于芯片内部总线与缓存带宽,推理速度易受制约,进而影响响应实时性。此外,在高度集成的移动终端上运行大语言模型,对能效比提出严苛要求——一旦功耗失控,极易触发温控降频,损害用户体验。

面对上述挑战,高通已系统布局多项关键技术:其一,持续深化模型量化与压缩技术,从早期8bit逐步推进至4bit,今年更实现了2bit极致压缩,大幅降低模型内存占用,释放更大部署空间;其二,创新引入并行解码机制,在带宽受限条件下显著提升token生成速率;其三,依托新一代eNPU架构与先进异构计算平台,推动端侧AI由被动响应转向主动服务,真正实现千人千面的智能交互。

下面,我想就并行解码技术作进一步说明。当前主流大模型多采用自回归架构,需将全部输入与权重一次性载入内存才能逐个生成token,效率偏低。尤其当模型规模不断攀升,单次token生成延迟愈发明显,严重影响交互流畅度。高通提出的并行解码方案,采用“小模型草稿+大模型校验”的双阶段策略:先由轻量级草稿模型在端侧一次性预测多个候选token,再交由原始大模型进行快速验证。由于草稿模型本身由大模型蒸馏训练而来,其输出在大模型验证时具备高接受率,从而在保障精度前提下,成倍提升端侧解码吞吐量。

我们正处于生成式AI向智能体AI跃迁的关键路口。从应用场景看,生成式AI擅长解决“单点任务”,如实时翻译、图像生成、内容摘要与续写等;而智能体AI则面向更复杂、更动态、更主动的服务场景,其实现依赖三大基础能力:一是具备强推理能力的大模型(可部署于端或云),用于精准理解用户意图;二是在意图解析后,调用本地知识图谱或个人数据资产,生成个性化任务流;三是通过调度本地或云端API,自动完成任务执行闭环。

举一个具体案例:用户可通过自然语言指令让智能体代发微博。当智能体识别出“我要发布一条微博”这一核心意图后,会自动启动微博App,检索相册中待发布的图片,并基于用户历史偏好智能匹配滤镜风格,最终一键完成发布。不仅如此,后续还可通过语音或文字持续追踪评论动态,例如识别出某条评论特别有趣后,自动触发点赞或回复动作。这一完整流程在今年9月的骁龙峰会上已全部实现在端侧运行,全程零云端依赖。

值得一提的是,高通的产品矩阵远不止于智能手机芯片。从AR智能眼镜、Windows PC、智能汽车座舱,到智能手表与各类IoT终端,所有搭载骁龙平台的设备均支持统一AI框架与智能互联能力。我们可以设想这样一种协同模式:算力受限的智能眼镜或手表,可通过Wi-Fi或蓝牙无缝连接手机、PC乃至车载系统,将大模型推理任务迁移至更高性能终端完成,从而在资源受限设备上依然享受分布式、个性化的AI服务。

最后,我们坚信,未来的AI体验必将走向“混合AI”新范式——即在终端侧部署轻量、高效、垂类优化的小模型,提供低延迟、高安全、强个性化的即时服务;在云端则运行超大规模通用模型,支撑更复杂、更深度、更泛化的AI能力。高通将持续发挥在连接技术领域的领先优势,以超低时延、高速率、高可靠、高安全的无线连接能力,夯实端云协同底座,全面赋能混合AI时代的智能演进。

以上就是量子位MEET2026现场:高通万卫星详解从云端到边缘智能的混合AI新架构的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号