首页 > 新闻 > IT新闻 > 正文

强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

聖光之護
发布: 2025-09-30 17:09:18
原创
727人浏览过

2025 年 9 月 29 日,深度求索公司正式推出其新一代模型架构 deepseek-v3.2,迅速在行业内引发高度关注。尤为引人注目的是,寒武纪同日宣布完成对 deepseek-v3.2 的适配工作,并开源了大模型推理引擎 vllm 的源代码。

此次发布的 DeepSeek-V3.2-Exp 是一个实验性(Experimental)版本,作为通向全新架构的过渡性探索,该版本在前代 V3.1-Terminus 的基础上,首次引入了 DeepSeek Sparse Attention 技术——一种创新的稀疏注意力机制,重点针对长文本场景下的训练与推理效率进行了优化验证。

强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

目前,DeepSeek 官方 App、网页端及小程序均已全面升级至 DeepSeek-V3.2-Exp 版本。与此同时,API 调用价格大幅下调,诚邀广大用户积极试用并反馈使用体验。

值得一提的是,寒武纪已率先完成对 DeepSeek 最新模型 DeepSeek-V3.2-Exp 的完整适配,并对外公开了专为 MLU 平台优化的大模型推理引擎 vLLM-MLU 源码。相关代码地址与测试指南详见文末,开发者可基于寒武纪软硬件环境第一时间部署和体验该模型的核心能力。

这一“模型发布即完成芯片适配”的高效协同模式,被业内专家视为中国高科技企业间深度合作的重要风向标。

代码小浣熊
代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节

代码小浣熊51
查看详情 代码小浣熊

从技术角度看,DeepSeek-V3.2-Exp 模型规模高达 671GB。据估算,在网络带宽理想的情况下,仅下载完整模型就需约 8 至 10 小时。而实现芯片级适配,则涉及底层架构调优、算力资源匹配、系统兼容性调试等多项高复杂度任务,绝非朝夕之功。

一位长期关注 AI 芯片领域的资深专家表示:“寒武纪能在模型发布当天就完成适配,说明其团队必然早已提前介入研发流程。这背后是双方在技术路线上的深度对齐与长期协作的结果。两家公司风格一贯低调务实,不搞宣传造势,但行动上早已默契同行。”这种专注实干的态度,正成为中国顶尖科技企业的共同标签。

在全球 AI 竞争日益白热化的背景下,中国 AI 产业若想在全球格局中占据有利位置,离不开龙头企业之间的紧密协作。本次深度求索与寒武纪的快速联动,正是我国人工智能产业链上下游协同创新的生动实践。

展望未来,此类高水平的生态协同有望显著降低大模型在长序列任务中的训练与推理成本,加速 AI 应用的规模化落地与“涌现”效应的到来。

以上就是强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码的详细内容,更多请关注php中文网其它相关文章!

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号