昆仑万维近日推出全新轻量级多模态智能体 skywork r1v4-lite,该模型集成了视觉操作、逻辑推理与任务规划能力,具备在单一架构下统一实现主动图像处理、外部工具调用以及多模态深度研究的综合功能。
不同于传统仅能“看图说话”的多模态模型,Skywork R1V4-Lite 能在真实应用场景中通过随手拍摄的照片完成复杂操作:自动旋转图像以判断空间方位、多次放大识别模糊文字内容、绘制辅助线验证几何关系、跨模态检索定位实际地理位置等。用户无需精心设计提示词或提供额外信息,只需上传一张图片,系统即可自主完成观察、操作、推理并输出结果。
在多项基准测试中,Skywork R1V4-Lite 表现优异,在8个多模态理解评测中整体超越 Gemini 2.5 Flash,其中5项任务得分甚至优于 Gemini 2.5 Pro。


该模型还支持接入实时网络搜索,在启用联网功能时将自动激活其深度研究能力。测试数据显示,R1V4-Lite 在多模态 DeepResearch 类任务中展现出领先优势:mm-search 得分为66,高于 Gemini 2.5 Flash 的64.9;FVQA 测试中获得67分,显著领先于后者60.8分的表现。

昆仑万维表示:
R1V4-Lite 的突破不仅源于工程层面的优化,更关键的是其背后采用的新型多模态范式——图像操作与深度推理的联合训练机制。这一训练路径使小型模型也能同时具备跨模态推理、主动视觉操作、任务规划和搜索增强等多重能力,展现了轻量级智能体发展的新方向。这一成果进一步证明:能力密度比参数规模更具决定性,小模型同样可以逼近甚至达到闭源大模型的实际表现水平。随着更大容量和更强结构持续融入该技术路线,其扩展潜力将持续释放。目前,更高性能版本 Skywork R1V4-Pro 已进入发布准备阶段。
源码地址:点击下载
以上就是昆仑万维发布 Skywork R1V4-Lite的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号