昨夜,deepseek v3.1 模型悄然现身 hugging face。deepseek 团队再次上演熟悉的“深夜操作”:微信群通知、凌晨上传、无模型卡说明!一切信息全靠开发者自行挖掘。但别着急,这正是探索的乐趣所在……我们通过对多个版本模型库的细致比对,揭开了三项关键架构升级,这次迭代或许将成为近期最值得关注的国产大模型进化。
HF 地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
image-20250820072808719### 1. 混合推理能力浮出水面
在 V3.1 的 tokenizer_config.json 文件中,其 chat_template 配置新增了一个名为 thinking 的变量,且支持动态开关——开启即启用思考流程,关闭则直接输出结果。这一特性在之前的 V3 和 R1 版本中均未出现。
显式化“思考”机制的设计演进:
V3.1: 引入了 <think></think> 和 `标签,明确用于包裹模型内部的推理链(Chain-of-Thought),并加入thinking布尔参数控制是否生成此类内容,实现灵活切换。R1: 虽也有标签,但仅作为提示生成时的固定插入项,在解析阶段直接剔除,缺乏可配置性。V3: 完全没有与
通过对比 tokenizer.txt 文件中的占位符变化,我们发现 V3.1 已将原有的 place_holder 替换为 和。其中 `` 并非全新设计,在 DeepSeek R1 中已有踪迹。这一改动暗示 V3.1 可能已集成类似 Gemini 2.5 的实时信息检索功能,能够在推理过程中主动获取外部知识,有效应对“知识截止”和“冷门事实查询”等长期难题。
### 3. 工具调用机制优化
继续分析 chat_template,可以清晰看到 V3.1 在工具调用(Tool Call)方面的显著改进。
调用格式: + `函数名` + + 参数字符串 + 输出格式: + 返回内容 + ``
结构极为简洁,参数以原始字符串形式传递,无需额外封装。
调用格式: + `类型` + + 函数名 +
+ json`+`\n`+`参数 JSON 字符串`+`\n`+ ````` +
输出格式:+ `...|tool output end|>` + ... +
旧版格式更为繁琐,需标明工具类型(如 function),且强制使用 Markdown 代码块包裹 JSON 参数。虽然在多任务并发场景下结构更清晰,但也增加了模板复杂度和出错概率。新格式的简化,意味着更低的解析错误率、更快的响应速度以及对 system prompt 的依赖减弱,体现出工程实现的进一步成熟。
配置不会撒谎。DeepSeek V3.1 凭借三大核心能力——显式推理(Think)、动态检索(Search)、高效工具调用(Tool),精准指向下一代 AI 智能体的核心需求。一条清晰的技术路径已然浮现:一个更自主、更可靠、更能与现实世界互动的智能体正加速成型。其实战表现值得高度期待,我们将第一时间推出实测评测,敬请关注!
昨天发文称 DeepSeek 静默更新 V3.1,曾猜测可能不会再有 R2 版本。结果有人质疑我标题党,甚至拉黑取关……被打脸了吗???
以上就是DeepSeek V3.1 开源发布,我们从配置文件里扒出了这些猛料,不只是混合推理!的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号