1月21日消息,正值deepseek-r1模型发布一周年(2025年1月),deepseek再度引发业界关注——全新模型“model1”悄然现身,与此同时,传闻中的新一代旗舰ai模型v4也已进入发布倒计时。
一、MODEL1亮相DeepSeek官方GitHub仓库
北京时间1月21日,DeepSeek官方GitHub仓库更新了一批FlashMLA相关代码。AI对全部114个代码文件(涵盖.py、.md、.txt、.sh、.cpp、.cu、.h等格式)进行深度扫描后,识别出此前从未公开的模型标识符“MODEL1”,该名称在代码中高频出现达31次。
FlashMLA是DeepSeek自主研发的、专为英伟达Hopper架构GPU深度调优的底层加速框架。其核心基于MLA(多层注意力机制),这一技术已成为DeepSeek系列模型(如V2、V3)实现高吞吐、低开销的关键支柱,可在模型结构层面显著压缩显存占用,充分释放GPU硬件潜力。
MODEL1是FlashMLA当前支持的两大主干模型架构之一,另一为DeepSeek-V3.2。综合代码特征与配置逻辑推测,MODEL1极有可能是一款面向高效推理场景的轻量化架构:相较V3.2,它具备更低的内存消耗,更适合部署于边缘设备或对成本高度敏感的应用环境;同时,它也可能专为16K+长序列任务设计,强化文档解析、代码理解等长上下文建模能力。
值得注意的是,MODEL1的硬件适配覆盖多代GPU架构:在英伟达H100/H200(SM90架构)上,分别提供model1_persistent_h64.cu(64头)与model1_persistent_h128.cu(128头)两版内核;而在最新发布的B200(SM100架构)上,则配备了专属的Head64实现,并且SM100平台下的Head128内核仅兼容MODEL1,不支持V3.2。这一差异进一步佐证了业界猜测——DeepSeek正以MODEL1为支点,系统性重构模型底层,以全面拥抱英伟达下一代计算平台。
二、DeepSeek模型演进脉络与技术双轨战略
截至目前,DeepSeek已形成两条清晰的技术发展主线:一条是以V系列为代表的“全能型智能体”,聚焦通用能力与综合性能;另一条是以R系列为核心的“深度推理专家”,专攻数学推演、逻辑分析等高阶认知任务。

2024年12月发布的V3,凭借创新的高效MoE架构,成为DeepSeek能力跃迁的关键节点。此后迭代节奏加快:V3.1强化了复杂推理与Agent协同能力;而于2025年12月正式推出的V3.2,则在稳定性、响应速度与多任务泛化性上再进一步。此外,还同步上线了面向数学与科研领域的特化版本V3.2-Speciale。
2025年1月发布的R1模型,则通过大规模强化学习训练,在数学解题、编程生成等硬核推理任务中展现出突破性表现,并首次引入“深度思考”机制,赋予模型分步推演、自我验证的能力。
三、旗舰新作V4蓄势待发,预计农历新年期间登场
据科技媒体The Information月初报道,DeepSeek计划于2025年2月中旬(恰逢中国农历新年假期)正式推出全新一代旗舰大模型——DeepSeek V4,该模型将重点提升代码生成质量与工程实用性。
此前,DeepSeek研究团队已连续发布两项关键技术成果:其一是名为“优化残差连接(mHC)”的新型训练范式;其二是受神经科学启发的“AI记忆模块(Engram)”。这两项前沿探索与V4的临近发布形成强关联,令外界普遍预期:V4或将首次集成上述原创技术,推动模型在长期依赖建模、知识持续积累与复杂指令遵循等方面实现质的飞跃。











