
Zoom 的人工智能系统近期在被冠以“人类终极考场”(Humanity's Last Exam,HLE)之称的全球顶级AI能力评估基准中,以48.1%的得分创下新高,一举打破此前由谷歌 Gemini 3 Pro 保持的45.8%纪录。
针对“一家不自研底层大模型的企业,如何实现对头部模型厂商的技术反超”这一疑问,Zoom 首席技术官、前微软 AI 高管黄学东(Xuedong Huang)回应称:Zoom 并未投入巨资训练万亿级参数的私有大模型,而是独创了一套高度协同的“联邦式人工智能架构”:
- Z 评分器(Z-Scorer):作为整个系统的决策中枢,可动态分析并比对来自 OpenAI、Google、Anthropic 等多家主流模型的输出结果,按任务需求实时遴选最优响应;
- 探索–验证–联合机制:一种基于多智能体(Multi-Agent)的协作范式,通过让不同AI模型彼此质疑、交叉验证与协同优化,持续提升推理质量与逻辑严谨性;
- 流量控制器:本质上是一个高度智能化的AI调度枢纽——它不替代模型,而是整合模型;不堆算力,而重编排。正是这种“集成即能力”的思路,使 Zoom 实现了单点模型无法企及的综合表现。
该成果在技术圈内迅速激起了两极评价。以工程师 Max Rumpf 为首的一批开发者指出,Zoom 实质上是依托各大厂API构建的“高级封装层”,其突破仅体现在脱离真实场景的学术型测试中,对终端用户价值微弱,甚至被质疑为“借他人之力博虚名”。
但另一些行业观察者,如开发者朱宏成,则持截然不同的观点:在当前AI评估体系下,“模型联邦”已成必然路径。这正如 Kaggle 数据竞赛冠军普遍采用模型融合策略,而非孤注一掷押注单一架构。从商业视角看,该路径极具现实智慧——既规避了天文数字般的训练成本,又赋予 Zoom 在模型供应商间自由切换的能力,彻底挣脱了生态绑定困局。
在黄学东看来,此次 HLE 登顶,是对 Zoom 全栈AI战略的一次关键印证。而对于其全球3亿用户而言,真正的考验将落在即将发布的 AI Companion 3.0 上。尽管48.1% 的 HLE 成绩映射出当前机器在高等数学、抽象哲学等复杂认知任务上的前沿水位,但用户真正关心的是:当数以亿计的会议记录被自动归纳、行动项被精准提取时,这套“联邦大脑”是否真能比任何单一模型更高效、更可靠、更懂人。








