
Phi-4模型要点总结:
Phi-4模型概述: 开发人员:微软研究院 描述:Phi-4是一款先进的开放模型,利用合成数据集、经过筛选的公共领域网站数据、学术书籍及问答数据集进行构建。其设计目标是确保小型能力模型能够通过高质量和高推理能力的数据进行训练。Phi-4经过严密的增强和调整过程,结合监督微调与直接偏好优化,以保证精确的指令遵循和强有力的安全措施。
架构: 参数:14B 参数 模型类型:密集解码器专用 Transformer 模型 输入: 类型:文本 最佳格式:聊天格式的提示 上下文长度:16K Token
硬件需求: GPU:1920 H100-80G 训练时间:21天
训练数据:9.8T Token
输出:根据输入生成的文本
日期: 训练时间:2024年10月 - 2024年11月 数据截止日期:2024年6月及之前 发布日期:2024年12月12日
状态: 类型:在离线数据集上训练的静态模型 数据来源:公开数据,截止日期为2024年6月及之前

模型效果如下:











