今天下午,deepseek官方正式公布了deepseek-v3.1模型的底层技术架构。
该模型采用混合推理机制,具备动态响应能力:面对简单问题如“1+1=?”时可自动切换至非思考模式,快速作答;处理复杂任务时则启动深度思考模式,进行多步逻辑推演。
因此它拥有两种运行状态:非思考模式类似于传统的对话型模型,类似此前的Deepseek V3;而思考模式则接近于Deepseek-R1的能力表现。
两种模式均支持128k上下文长度,仅在输出token限制上略有不同,使用时需留意这一细节。
目前官方App与网页端已完成升级,用户可通过新增的“深度思考”开关,自由切换两种模式,实现灵活交互。
在推理效率方面,V3.1相较前代全面提升,不仅响应更快,对复杂问题的理解与解答更为精准,同时避免了在简单问题上的过度计算或低级错误。
此外,在智能体相关任务中的表现也显著增强。
值得一提的是,新版V3.1已兼容Anthropic API格式,这意味着可以在Claude Code环境中直接调用DeepSeek-V3.1模型。
下面为你详细演示配置流程。
首先安装Claude Code命令行工具:
npm install -g @anthropic-ai/claude-code
接着在终端设置环境变量:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat完成配置后,即可运行claude命令开始体验:
claude
我测试了两个实际案例,整体反馈显示V3.1响应迅速,生成质量极高,显示出深层次优化成果。
第一个任务是生成一个3D打地鼠小游戏,难度较低。

第二个任务为制作一款动漫风格跑酷游戏,涉及场景设计、角色技能、动作姿态等更复杂的要素。
其中场景部分出现渲染问题,经过调试仍未完全解决。
### 智能体功能升级:工具调用能力大幅提升
V3.1在智能体任务执行方面实现了关键突破。
据官方介绍,其在编程类智能体应用场景中表现尤为突出,例如代码修复、终端复杂指令执行等方面均有明显进步。
这些能力可在腾讯推出的CodeBuddy平台中亲身体验。
在搜索与推理任务中,即便是最棘手的多跳推理或多学科交叉难题,V3.1也能高效应对,实力毋庸置疑。
最后谈谈大家最关心的价格策略,请参考下图:
在9月6日00:00之前,执行以下优惠价格:
此后将小幅上调,但整体仍保持在合理区间,定价介于传统对话模型与高成本思考模型之间,属于折中方案。
另外,V3.1的Base版本和后训练版本均已开源,进一步降低了使用门槛,推动性能与普及的双重提升。
Base 模型下载地址:
Hugging Face:https://www.php.cn/link/b55ff6b67aa843c4100437816f6ce41a
魔搭:https://www.php.cn/link/a6e9d683f3ef40b3de78dac26d7c031d
后训练模型地址:
Hugging Face:https://www.php.cn/link/a18d897b505e98af6fb846125dd80314
魔搭:https://www.php.cn/link/1532b681733b6bce2ff7252d8890d550
透露一个关键信息,评论区中的这句话值得重点关注。
DeepSeek-V3.1 采用了 UE8M0 FP8 Scale 的参数精度。
这表明该模型是面向国产芯片生态专门优化的设计,与V3存在本质区别,尤其体现在分词器结构与chat template的重构上。
更多惊喜,敬请期待。
以上就是DeepSeek-V3.1模型在下一盘很大的棋的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号