
中国搜寻引擎龙头百度(Baidu Inc.)週一推出全新人工智慧模型ERNIE‑4.5‑VL‑28B‑A3B‑Thinking,宣称在多项视觉理解任务中击败Google与OpenAI的最新系统,且所需运算资源远低于竞争对手。此举被视为百度在全球AI竞赛中的关键布局,也显示多模态AI(具备文字、影像、影片综合理解能力)已迈入更高效率与更广泛应用的新时代。
根据官方技术文件,该模型总参数量达280亿,但实际运行时仅激活约30亿参数,仰赖先进的「动态路由」机制,自动挑选最适合的子网络进行计算。这项创新设计不仅让其在文件解析、图表解读与图像推理等复杂任务上媲美更大规模的模型,同时也显著减少记忆体占用与能耗,被外界誉为以精巧架构实现高效能的典范。
这项AI技术最引人注目的功能,在于其具备「动态缩放视觉焦点」的能力——如同人类看图时先掌握整体轮廓,再聚焦细节。例如分析一张复杂的电路图时,它会先识别整体结构,再逐层深入特定元件进行判断。这种类人眼的观察方式,使其在处理工业检测、财务报表或学术图表时更具弹性与精准度。
背后的关键技术是「混合专家系统」(Mixture of Experts, MoE),让模型能依任务需求动态启用最相关的30亿参数运作,而非全部启动。这意味着企业用户仅需配备一张高端GPU即可部署运行,大幅降低硬件门槛与运营成本,对中小企业尤其具吸引力。
值得一提的是,百度采用「Apache 2.0」开源授权释出此模型,允许任何人自由下载、修改,并可用于商业用途。相较之下,Google与OpenAI多数先进模型仍采取封闭或限制性授权模式,此举无疑为开发者生态注入更强动能。
百度表示,ERNIE‑4.5‑VL‑28B‑A3B‑Thinking在多项基准测试中表现优于Google Gemini及传闻中的GPT-5,尤其是在图文关联理解与跨模态推理方面领先明显。然而,目前尚未有第三方机构独立验证这些成果,实际效能仍有待业界广泛测试确认。
该模型特别适用于金融分析、供应链管理、制造业质检等领域,可自动解读合同文件、侦测图表异常、识别生产线上的瑕疵品。由于其低资源消耗特性,即使资源有限的企业也能轻松导入AI能力。
百度预计将在11月13日举行的「Baidu World 2025」大会上,公开更多实际应用场景与性能数据。若其效能确实如官方所述,有望重塑全球AI产业格局,推动低成本、高效率的多模态AI工具普及化。
以上就是百度开源新AI模型 称效能超越GPT-5与Gemini的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号