阶跃星辰正式开源 step3-vl-10b 多模态大模型,涵盖 base 版本与 thinking 版本,实测性能显著优于参数量达其 20 倍的同类模型。
官方声明指出,该模型仅以 10B 参数规模,在视觉理解、逻辑推演、数学竞赛解题及开放域对话等多项权威基准测试中均刷新同体量模型最佳成绩(SOTA),成功突破小参数量与高智能水平难以兼顾的技术瓶颈。
在多项核心评测任务中,Step3-VL-10B 不仅追平,更在部分场景下超越参数规模高达 10–20 倍的开源旗舰(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B),甚至比肩顶尖闭源多模态模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。
依托这一“小而强”的基础架构,原本依赖云端算力支撑的高阶多模态推理能力——例如 GUI 自动化操作、深度文档结构化解析、毫米级精度计数等——现已可部署至智能手机、个人电脑乃至工业级嵌入式终端。
Step3-VL-10B 具备以下三大技术优势:
- 行业领先的视觉感知能力:在相同参数级别中实现最高精度的图像识别与场景感知。创新引入 PaCoRe(并行协调推理)机制,使模型在复杂物体计数、超高精度 OCR、空间关系建模等挑战性任务上稳定性与准确率实现跨越式提升。
- 深度逻辑推演与长程思维链构建:通过大规模强化学习(RL)持续优化训练路径,Step3-VL-10B 在 10B 尺度下达成跨领域推理能力跃迁。面对国际数学竞赛题、真实编程环境调试、视觉逻辑谜题等复杂问题,均可生成严谨、可追溯的多步推理过程并输出正确结论。
- 卓越的端侧 Agent 交互能力:基于海量 GUI 场景专项预训练数据,模型具备对复杂图形界面的精准识别、语义理解与动作规划能力,成为轻量化端侧智能体的核心推理引擎。
Step3-VL-10B 同时支持 SeRe(顺序推理)与 PaCoRe(并行协调推理)两种推理范式,在 STEM 推理、通用识别、OCR 与文档处理、GUI 定位、空间关系解析、代码生成等关键维度均斩获媲美千亿参数模型的优异表现,其中 PaCoRe 范式综合得分更胜一筹。




更多信息请参阅官方发布页面。
源码获取地址:点击下载










