DeepSeek新动态：MODEL1曝光与V4发布在即

聖光之護

发布时间：2026-01-22 18:54:02

116人浏览过

来源于php中文网

原创

1月21日消息，正值deepseek-r1模型发布一周年（2025年1月），deepseek再度引发业界关注——全新模型“model1”悄然现身，与此同时，传闻中的新一代旗舰ai模型v4也已进入发布倒计时。

一、MODEL1亮相DeepSeek官方GitHub仓库

北京时间1月21日，DeepSeek官方GitHub仓库更新了一批FlashMLA相关代码。AI对全部114个代码文件（涵盖.py、.md、.txt、.sh、.cpp、.cu、.h等格式）进行深度扫描后，识别出此前从未公开的模型标识符“MODEL1”，该名称在代码中高频出现达31次。

FlashMLA是DeepSeek自主研发的、专为英伟达Hopper架构GPU深度调优的底层加速框架。其核心基于MLA（多层注意力机制），这一技术已成为DeepSeek系列模型（如V2、V3）实现高吞吐、低开销的关键支柱，可在模型结构层面显著压缩显存占用，充分释放GPU硬件潜力。

MODEL1是FlashMLA当前支持的两大主干模型架构之一，另一为DeepSeek-V3.2。综合代码特征与配置逻辑推测，MODEL1极有可能是一款面向高效推理场景的轻量化架构：相较V3.2，它具备更低的内存消耗，更适合部署于边缘设备或对成本高度敏感的应用环境；同时，它也可能专为16K+长序列任务设计，强化文档解析、代码理解等长上下文建模能力。

值得注意的是，MODEL1的硬件适配覆盖多代GPU架构：在英伟达H100/H200（SM90架构）上，分别提供model1_persistent_h64.cu（64头）与model1_persistent_h128.cu（128头）两版内核；而在最新发布的B200（SM100架构）上，则配备了专属的Head64实现，并且SM100平台下的Head128内核仅兼容MODEL1，不支持V3.2。这一差异进一步佐证了业界猜测——DeepSeek正以MODEL1为支点，系统性重构模型底层，以全面拥抱英伟达下一代计算平台。

二、DeepSeek模型演进脉络与技术双轨战略

截至目前，DeepSeek已形成两条清晰的技术发展主线：一条是以V系列为代表的“全能型智能体”，聚焦通用能力与综合性能；另一条是以R系列为核心的“深度推理专家”，专攻数学推演、逻辑分析等高阶认知任务。

Powtoon

AI创建令人惊叹的动画短片及简报

下载

DeepSeek新动态：MODEL1曝光与V4发布在即

2024年12月发布的V3，凭借创新的高效MoE架构，成为DeepSeek能力跃迁的关键节点。此后迭代节奏加快：V3.1强化了复杂推理与Agent协同能力；而于2025年12月正式推出的V3.2，则在稳定性、响应速度与多任务泛化性上再进一步。此外，还同步上线了面向数学与科研领域的特化版本V3.2-Speciale。

2025年1月发布的R1模型，则通过大规模强化学习训练，在数学解题、编程生成等硬核推理任务中展现出突破性表现，并首次引入“深度思考”机制，赋予模型分步推演、自我验证的能力。

三、旗舰新作V4蓄势待发，预计农历新年期间登场

据科技媒体The Information月初报道，DeepSeek计划于2025年2月中旬（恰逢中国农历新年假期）正式推出全新一代旗舰大模型——DeepSeek V4，该模型将重点提升代码生成质量与工程实用性。

此前，DeepSeek研究团队已连续发布两项关键技术成果：其一是名为“优化残差连接（mHC）”的新型训练范式；其二是受神经科学启发的“AI记忆模块（Engram）”。这两项前沿探索与V4的临近发布形成强关联，令外界普遍预期：V4或将首次集成上述原创技术，推动模型在长期依赖建模、知识持续积累与复杂指令遵循等方面实现质的飞跃。

IntelliJ IDEA如何导入项目

VisualStudio如何创建远程储存库

pycharm如何查找文件历史记录

微信小程序怎么做微信小程序开发入门教程

如何在本地部署DeepSeek- DeepSeek本地部署指南及视频演示