近日,deepseek 团队为其核心推理引擎 flashmla 推送了多轮代码更新,而在这些提交记录中,一个此前从未对外披露的模型代号——“model1” 突然浮现,迅速在开发者社区引发广泛关注与热议。

不少社区成员推测,“MODEL1” 极有可能就是 DeepSeek 正在内部灰度测试的 V3 最终形态(即传闻中的 V4 版本);也有观点认为,它或标志着 DeepSeek 全新研发路线的开启,是一个完全脱离现有 V 系列命名体系的独立大模型。

据公开代码显示,此次 FlashMLA 的批量更新涉及共计 114 个文件,其中多达 28 处明确引用了尚未释义的 “MODEL1” 模型标识符。值得注意的是,该标识符常与当前已知的 “V32”(即 DeepSeek-V3.2)并列出现,或被显式区分使用。
结合上下文语义及配置逻辑推断,“MODEL1” 很大概率指向一套与现役模型架构存在本质差异的新一代模型框架。
进一步源码剖析指出,“MODEL1” 与 “V32” 在若干底层关键技术路径上呈现明显分野,包括但不限于:键值(KV)缓存的内存排布策略、稀疏注意力机制的实现范式,以及对 FP8 精度格式的原生解码能力支持。这些结构性调整暗示其设计目标聚焦于更高密度的显存利用效率与更优的端到端推理吞吐表现。
源码地址:点击下载











