[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

看不見的法師

发布时间：2025-11-07 10:24:24

1027人浏览过

来源于php中文网

原创

DeepSeek-MoE-16b-chat Transformers 部署与调用指南

模型简介：DeepSeek-MoE-16b-chat

deepseek moe 系列目前发布的是参数总量为160亿的版本，实际激活参数约为28亿。相较于其自家的7b全连接模型，在19个基准测试任务中表现互有优劣，整体性能相当接近。而对比同类型的llama 2-7b密集模型，该moe模型在数学推理和代码生成等任务上展现出更优的能力。值得注意的是，llama 2-7b和deepseek 7b密集模型每处理4k token所需的计算量均超过180tflops，而deepseek-moe仅需74.4tflops，能耗效率提升显著，仅为前者的约40%。

环境搭建步骤

在Autodl平台上租用一台配备双卡3090（单卡24G显存，共48G） 的服务器实例，选择镜像环境为：PyTorch → 2.1.0 → Python 3.10 (Ubuntu 22.04) → CUDA 12.1。成功启动后，进入该服务器的 JupyterLab 界面，并打开终端进行后续操作。

[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

接下来将在终端中完成依赖安装、模型下载及推理演示。

更换pip源并安装必要依赖

# 开启Autodl学术加速功能以提高GitHub访问速度 source /etc/network_turbo

升级pip至最新版本

python -m pip install --upgrade pip

配置清华镜像源以加快包下载速度

pip config set global.index-url https://www.php.cn/link/a6455ffc4e47fd737db213366771ec0e

安装核心库

pip install modelscope transformers sentencepiece accelerate

安装Flash Attention加速库（适配当前CUDA与PyTorch版本）

pip install https://www.php.cn/link/0e7adb08b43a589df528d2bdd69b6b03

模型获取方式

使用 modelscope 提供的 snapshot_download 方法来拉取模型文件。第一个参数指定模型名称，cache_dir 指定本地存储路径。

在 /root/autodl-tmp 目录下创建 download.py 文件，并填入以下代码内容。保存文件后运行命令：python /root/autodl-tmp/download.py。模型总大小约30GB，下载过程预计耗时10~20分钟。

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
model_dir = snapshot_download('deepseek-ai/deepseek-moe-16b-chat', cache_dir='/root/autodl-tmp', revision='master')

推理脚本编写

在相同目录 /root/autodl-tmp 下新建 trains.py 文件，写入如下推理代码：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
设置模型路径
model_name = "/root/autodl-tmp/deepseek-ai/deepseek-moe-16b-chat"

							
								
								
									Contentfries
									将长视频改造成更加引人注目的短视频
								
								下载 
							
						
加载分词器，启用远程代码执行权限
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
加载模型，采用bfloat16精度以节省显存，自动分配GPU设备
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)
加载生成配置
model.generation_config = GenerationConfig.from_pretrained(model_name, trust_remote_code=True)
设置pad_token_id与eos_token_id一致，便于解码处理
model.generation_config.pad_token_id = model.generation_config.eos_token_id
构造对话输入
messages = [
{"role": "user", "content": "你是谁"}
]
使用模板格式化输入，添加生成提示符
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
执行文本生成，限制最大新生成token数为100以防显存溢出
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
解码输出结果，跳过特殊标记以获得干净文本
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
输出最终回答
print(result)

模型部署与调用

在终端中执行以下命令，运行刚刚编写的推理脚本：

cd /root/autodl-tmp
python trains.py

运行过程中会看到“loading checkpoint”等提示信息，表明模型正在加载中。待加载完成后，模型将自动生成对“你是谁”的回应，效果如下图所示：

[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用

Linux系统安装时怎样选择文件系统

多闪跨平台使用入口_多闪网页版免验证链接

Fishbowl官方测试入口在线鱼缸性能测试网站

百度输入法在Linux系统（如Ubuntu）上怎么安装_百度输入法Linux版本安装指南

VScode如何设置动画平滑插入

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

linux python git github app ubuntu ai pytorch 大模型镜像源 pip源 Python pip Token pytorch ubuntu llama

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：电脑怎么给视频号投流？有什么注意事项？下一篇：雨课堂网页版入口雨课堂登录网址在线版

作者最新文章

极兔快递单号查询官网在线版极兔快递单号查询网页版地址

2025-12-30 14:35

淘宝闪购搜索红包入口淘宝闪购关键词触发红包页

2025-12-30 14:39

通义千问怎样优化提示词合需求_通义千问需求契合技巧【步骤】

2025-12-30 14:44

FanFiction官网入口登录镜像网站FanFiction官方网站入口

2025-12-30 15:01

Win10怎么卸载PotPlayer_Win10彻底卸载PotPlayer方法【步骤】

2025-12-30 15:23

本地php环境如何添加虚拟主机_多站点配置域名指向方法【教程】

2025-12-30 15:37

微博html5版本怎么弄发定位微博_定位添加入口及权限开启方法【操作】

2025-12-30 16:16

ExcelAI怎样自动生成数据报表_ExcelAI自动生成报表步骤与模板设置【教程】

2025-12-30 16:29

悟空浏览器网页版入口_无需下载在线使用悟空浏览器地址

2025-12-30 16:33

php串口通信怎么设置_php调用dio扩展读写串口数据【方法】

2025-12-30 16:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

698

2023.08.11