[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

看不見的法師
发布: 2025-11-07 10:24:24
原创
996人浏览过

DeepSeek-MoE-16b-chat Transformers 部署与调用指南

模型简介:DeepSeek-MoE-16b-chat

deepseek moe 系列目前发布的是参数总量为160亿的版本,实际激活参数约为28亿。相较于其自家的7b全连接模型,在19个基准测试任务中表现互有优劣,整体性能相当接近。而对比同类型的llama 2-7b密集模型,该moe模型在数学推理和代码生成等任务上展现出更优的能力。值得注意的是,llama 2-7b和deepseek 7b密集模型每处理4k token所需的计算量均超过180tflops,而deepseek-moe仅需74.4tflops,能耗效率提升显著,仅为前者的约40%。

环境搭建步骤

在Autodl平台上租用一台配备双卡3090(单卡24G显存,共48G) 的服务器实例,选择镜像环境为:PyTorch → 2.1.0 → Python 3.10 (Ubuntu 22.04) → CUDA 12.1。成功启动后,进入该服务器的 JupyterLab 界面,并打开终端进行后续操作。

[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

接下来将在终端中完成依赖安装、模型下载及推理演示。

更换pip源并安装必要依赖
# 开启Autodl学术加速功能以提高GitHub访问速度
source /etc/network_turbo
<h1>升级pip至最新版本</h1><p>python -m pip install --upgrade pip</p><h1>配置清华镜像源以加快包下载速度</h1><p>pip config set global.index-url <a href="https://www.php.cn/link/a6455ffc4e47fd737db213366771ec0e">https://www.php.cn/link/a6455ffc4e47fd737db213366771ec0e</a></p><h1>安装核心库</h1><p>pip install modelscope transformers sentencepiece accelerate</p><h1>安装Flash Attention加速库(适配当前CUDA与PyTorch版本)</h1><p>pip install <a href="https://www.php.cn/link/0e7adb08b43a589df528d2bdd69b6b03">https://www.php.cn/link/0e7adb08b43a589df528d2bdd69b6b03</a>
登录后复制

模型获取方式

使用 modelscope 提供的 snapshot_download 方法来拉取模型文件。第一个参数指定模型名称,cache_dir 指定本地存储路径。

/root/autodl-tmp 目录下创建 download.py 文件,并填入以下代码内容。保存文件后运行命令:python /root/autodl-tmp/download.py。模型总大小约30GB,下载过程预计耗时10~20分钟。

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os</p><p>model_dir = snapshot_download('deepseek-ai/deepseek-moe-16b-chat', cache_dir='/root/autodl-tmp', revision='master')
登录后复制

推理脚本编写

在相同目录 /root/autodl-tmp 下新建 trains.py 文件,写入如下推理代码:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig</p><h1>设置模型路径</h1><p>model_name = "/root/autodl-tmp/deepseek-ai/deepseek-moe-16b-chat"</p>
                    <div class="aritcle_card">
                        <a class="aritcle_card_img" href="/ai/828">
                            <img src="https://img.php.cn/upload/ai_manual/000/000/000/175679977314943.png" alt="可图大模型">
                        </a>
                        <div class="aritcle_card_info">
                            <a href="/ai/828">可图大模型</a>
                            <p>可图大模型(Kolors)是快手大模型团队自研打造的文生图AI大模型</p>
                            <div class="">
                                <img src="/static/images/card_xiazai.png" alt="可图大模型">
                                <span>32</span>
                            </div>
                        </div>
                        <a href="/ai/828" class="aritcle_card_btn">
                            <span>查看详情</span>
                            <img src="/static/images/cardxiayige-3.png" alt="可图大模型">
                        </a>
                    </div>
                <h1>加载分词器,启用远程代码执行权限</h1><p>tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)</p><h1>加载模型,采用bfloat16精度以节省显存,自动分配GPU设备</h1><p>model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)</p><h1>加载生成配置</h1><p>model.generation_config = GenerationConfig.from_pretrained(model_name, trust_remote_code=True)</p><h1>设置pad_token_id与eos_token_id一致,便于解码处理</h1><p>model.generation_config.pad_token_id = model.generation_config.eos_token_id</p><h1>构造对话输入</h1><p>messages = [
{"role": "user", "content": "你是谁"}
]</p><h1>使用模板格式化输入,添加生成提示符</h1><p>input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")</p><h1>执行文本生成,限制最大新生成token数为100以防显存溢出</h1><p>outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)</p><h1>解码输出结果,跳过特殊标记以获得干净文本</h1><p>result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)</p><h1>输出最终回答</h1><p>print(result)
登录后复制

模型部署与调用

在终端中执行以下命令,运行刚刚编写的推理脚本:

cd /root/autodl-tmp
python trains.py
登录后复制

运行过程中会看到“loading checkpoint”等提示信息,表明模型正在加载中。待加载完成后,模型将自动生成对“你是谁”的回应,效果如下图所示:

[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

以上就是[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用的详细内容,更多请关注php中文网其它相关文章!

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号