快手近日正式推出了多模态大语言模型keye-vl-1.5-8b。

https://www.php.cn/link/5831e536b6f7828e911b47c0f2525161
据悉,相较于前代版本,Keye-VL-1.5在整体性能上实现了显著跃升,尤其在基础视觉理解方面表现亮眼,涵盖视觉元素识别、逻辑推理以及时序信息处理等多个维度。该模型在同参数规模中处于领先水平,部分能力甚至超越了如GPT-4o等闭源模型。

Keye-VL-1.5采用了四阶段渐进式训练框架,系统化地提升模型能力。在视觉编码器预训练阶段,模型使用SigLIP-400M的权重初始化ViT结构,并通过SigLIP对比损失函数对内部数据分布进行持续适配与优化。

第一阶段专注于投影MLP层的优化,确保跨模态特征实现稳定对齐;第二阶段则解冻全部参数,开展端到端的多任务预训练,大幅提升模型的基础视觉理解能力;第三阶段引入退火式微调策略,利用高质样本弥补前期高质量数据覆盖不足的问题,同时将序列长度扩展至128K,调整RoPE逆频率设置,并融入长视频、长文本及大尺寸图像等长上下文内容。
最后,采用同质-异质融合技术,对不同数据混合比例下训练出的模型权重进行加权平均,有效缓解因固定数据配比带来的内在偏差,在保留多样化功能的同时增强模型的鲁棒性与泛化能力。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号