
百度宣布正式开源其文心系列多模态深度思考模型 ERNIE-4.5-VL-28B-A3B-Thinking,该模型在运行时仅激活约30亿参数,高效且强大。
该模型基于 ERNIE-4.5-VL-28B-A3B 架构进一步深化训练,专注于提升复杂场景下的多模态理解与推理能力。其在文档解析、图表识别等方面表现突出,在文理科综合推理及通用视觉理解任务中展现出卓越的跨模态分析水平。通过增强空间感知与工具集成能力,模型支持“图像思考”等全新功能,拓展了多模态智能在实际应用中的交互潜力。
在中期训练阶段,ERNIE-4.5-VL-28B-A3B-Thinking引入大量高质量图文对数据,显著优化了模型的语义对齐能力和多模态表征精度,从而大幅提升视觉语言联合推理性能。
此外,模型在可验证任务上采用大规模多模态强化学习策略,结合GSPO与IcePop方法,有效稳定了基于MoE架构的强化学习过程,并借助动态难度采样机制,进一步提高训练效率与模型响应质量。
该版本还重点优化了视觉定位能力与指令跟随性,使用户能够更灵活地触发图像区域定位功能。同时,“图像思考”能力的引入让模型可自主调用图片放大、图像检索等外部工具,实现更深层次的视觉内容探索与交互体验。

以上就是百度开源 ERNIE-4.5-VL-28B-A3B-Thinking的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号