
抖音 SAIL 团队联合 LV-NUS Lab 推出全新多模态大模型 SAIL-VL2,并宣布全面开源。该模型在参数规模相对较小的情况下,依然在多项复杂推理任务中展现出卓越性能,甚至可与部分大规模闭源模型一较高下。
SAIL-VL2 提供 2B 和 8B 两种参数版本,在涵盖 106 个数据集的广泛测试中实现了显著突破,尤其在 MMMU、MathVista 等高难度推理基准上表现抢眼。这一成果得益于其在架构设计、训练策略和数据构建三大核心领域的创新。
在模型架构方面,SAIL-VL2 引入了稀疏化的混合专家(MoE)机制,有效平衡了性能与计算开销。其视觉编码器 SAIL-ViT 采用渐进式优化策略,持续增强图像与语言之间的对齐能力。得益于这种结构设计,模型在推理过程中仅需激活少量专家参数,大幅提升了运行效率。
在数据构建上,团队精心打造了一个高质量、多样化的多模态语料库,结合评分筛选与合成增强技术,确保训练数据的准确性与丰富性。同时,研究团队提出了一种分阶段的渐进式训练框架,从初级感知任务逐步过渡到高级推理任务,帮助模型更有效地掌握复杂逻辑能力。
通过端到端的全链路优化,SAIL-VL2 在基础模型能力上实现了重要跃升。实验结果表明,其 8B 版本在推理性能方面已接近当前领先的 GPT-4o,展现出强大的竞争力。
以上就是抖音与 LV-NUS 联合推出 SAIL-VL2 模型的详细内容,更多请关注php中文网其它相关文章!
抖音极速版是一款可以领现金的短视频app,看视频、拍视频、邀好友,均可获得专属金币红包,助您能轻松赚钱!感兴趣的小伙伴快来保存下载体验吧!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号