讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 软件教程 > 手机软件 > 正文

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了

蓮花仙者

发布： 2025-11-02 09:35:16

原创

241人浏览过

大家好，我是老章，专注 ai 学习与实践。

先来直观体验一下 200 Tokens/s 的生成速度——没有加速，文字飞驰而过，眼睛几乎跟不上输出节奏。

在之前的文章中我提到过，不要再用 Ollama，也不要再依赖 llama.cpp。原因是在测试过程中我发现，虽然 llama.cpp 单请求推理速度极快，但一旦并发上升，性能就出现断崖式下滑。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了根本原因在于，llama.cpp 并未对张量并行（Tensor Parallelism）和批处理推理（Batch Inference）进行优化，而且未来大概率也不会支持张量并行。因此，它仅适合用于将模型部分或全部卸载到 CPU 的场景。如果你有多块 GPU，更推荐使用 vLLM 或 SGLang 这类专为高性能推理设计的引擎。

事实上，我在之前的多篇本地部署教程中，一直使用的都是 vLLM。

有作者曾指出：张量并行通过将模型每一层的计算拆分到多个 GPU 上执行，使得每块 GPU 只需完成一部分矩阵运算，从而实现各层在不同设备上的并行计算，最终让整体推理速度呈指数级提升。

对此说法，我一直存疑。于是本文就来做一次实测：分别测试单卡、双卡、四卡配置下的推理性能表现。

测试模型选用我最钟爱的 DeepSeek-R1-0528-Qwen3-8B。此前在双 4090 上部署该模型时已验证过其性能，上下文长度默认设为 128K。由于显存需求高达 24GB，单张 4090 难以承载，双卡才能顺利运行，最高推理速度约为 90 Tokens/s。

本次测试硬件为 H200，单卡配备 141GB 显存。

测试工具采用 LLM-Benchmark。

单卡运行

启动命令如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了显存占用直接飙升至 126GB。可见若不加限制，模型会尽可能占满可用显存。可通过参数 --gpu-memory-utilization 控制显存使用率。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了性能测试结果如下：

SONIFY.io

SONIFY.io

设计和开发音频优先的产品和数据驱动的解决方案

SONIFY.io

98

SONIFY.io

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了在 50 并发下，平均 TPS 达到 83；
100 并发时，系统每秒可处理 47 个请求，平均生成速度为 49 Tokens/s。

双卡并行

双卡模式下，启动方式基本一致，仅增加 --tensor-parallel-size 2 参数，并指定两张 GPU。

每张卡同样占用约 126GB 显存。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了测试结果如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了单并发情况下，TPS 从 142 提升至 172；
50 并发时，平均 TPS 由单卡的 83 上升到 91；
100 并发下，每秒仍处理 47 个请求，平均生成速度为 50 Tokens/s，提升微弱。

四卡并行

设置 --tensor-parallel-size 4

需要注意的是，我的第 4 和第 5 张 GPU 上还运行着其他模型任务。

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了测试结果如下：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了单并发 TPS 进一步提升至 208；
50 并发下，平均 TPS 达到 94；
100 并发时，每秒处理请求数为 48，平均生成速度维持在 50 Tokens/s，依旧无明显增长。

八卡并行未做测试，因其余 GPU 已被其他服务占满，不便停机调整。

我用 Gemini 绘制了一张柱状图，用于对比不同并行策略下的 TPS 表现：

DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了总结：

在本地部署大模型时启用张量并行，确实能显著提升单请求的推理速度（TPS），但在高并发场景下，整体吞吐能力的提升趋于平缓，并不具备线性扩展效应。不过相比 llama.cpp 在并发压力下性能骤降的表现，vLLM 的稳定性无疑要优秀得多。

以上就是DeepSeek 8B 极限测试，200 Tokens每秒，眼球跟不上了的详细内容，更多请关注php中文网其它相关文章！

相关标签：

工具 ai 大模型性能测试 gemini deepseek 本地部署 qwen batch 并发 llama

大家都在看：

图片格式转换plt格式_图片格式转换plt格式官方正版入口2026最新数电发票查验入口电子发票服务平台官网好分数教师查分官网入口好分数教师专用登录平台抖音设置关闭商城推荐推送实用方法抖音翻唱视频怎么制作原声创作与音乐剪辑方法

AI工具

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

来源：php中文网

上一篇：《支付宝》免密支付关闭方法2025 下一篇：《地下城堡4：骑士与破碎编年史》烈风峡谷通关攻略

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

x浏览器海外版如何启用网页翻译服务_x浏览器海外版翻译功能开启及使用技巧【锦囊】

2025-12-18 13:15:07
铁路12306如何查看订单记录_铁路12306查看订单记录详细查询教程

2025-12-18 13:20:56
poki小游戏入口分类页 poki在线游戏免安装体验

2025-12-18 13:26:02
uc浏览器图标怎么删除_删除uc浏览器图标的方法

2025-12-18 13:31:02
php表格怎么输入二维数组_php表格输入二维数组方法与填充技巧

2025-12-18 13:35:02
悟空浏览器官方正式版入口悟空浏览器网页版快速通道

2025-12-18 13:37:02
用什么app拍车辆违章能赚钱推荐5个拍车辆违章能赚钱的APP

2025-12-18 13:51:22
HTML如何改造老旧网页_重构与优化策略解析【教程】

2025-12-18 13:53:02
极兔快递单号查询官方网站极兔快递单号查询唯一入口

2025-12-18 14:03:33
啥app买机票便宜机票最便宜三个平台2026推荐

2025-12-18 14:04:06

最新问题

代练通网页版快速入口_代练通官方平台网址代练通网页版官方入口为http://www.dailiantong.com/，认准域名、备案号湘ICP备13002100号-7A及右上角官方标识；支持需求发布、接单、资金托管与订单追踪，需实名认证，客服唯一QQ为3001250847。

2025-12-18 18:16:02

236

抖音火苗断了能申诉找回吗_抖音火苗消失后记录在哪查抖音火苗断了无法申诉找回，因火苗是系统实时计算的7天内连续互动状态标识，非存档数据，不支持人工干预或历史查询，客服也无法还原；仅能通过立即互聊或SVIP恢复。

2025-12-18 18:15:34

530

微信群消息太烦怎么办？教你一招彻底屏蔽群消息应启用深度屏蔽机制：一、开启消息免打扰并关闭所有通知项；二、折叠群聊并隐藏未读红点；三、启用仅接收@我的消息模式；四、使用黑名单+群内隐藏功能组合；五、退出群聊并清除本地缓存。

2025-12-18 18:15:18

469

旺商聊APP怎样利用标签精准筛选_旺商聊APP利用标签筛选秘籍【方法】旺商聊APP可通过五种方法实现精准筛选：一、组合访客标签并支持反向筛选；二、标签与联系方式、时间维度交叉过滤；三、开启会话列表标签可视化；四、社媒账号名+标签双重锚定；五、历史/活跃状态与标签分层结合。

2025-12-18 18:15:07

805

免密支付怎么关闭_取消支付宝微信免密支付方法需分别在支付宝和微信中关闭免密支付：支付宝可通过手机端【我的】→【支付设置】→【免密支付/自动扣款】逐项关闭，或网页端【账户安全】解除设备授权；微信则通过【我】→【服务】→【钱包】→【支付设置】→【免密支付】关闭，另需单独处理“先用后付”关联代扣。

2025-12-18 18:13:42

469

农历是阴历还是阳历_阴历农历区别详细教程农历是阴阳合历，既以朔望月定月（阴历特征），又通过十九年七闰调和回归年并纳入二十四节气（阳历特征）；阴历纯依月相、不计季节，阳历纯依太阳运行、无视月相。

2025-12-18 18:07:02

358

百家号个人如何注册认证_最新百家号注册步骤详解【图文教程】需通过百度官方入口注册并完成实名认证：一、访问baijiahao.baidu.com，选“个人”注册；二、填实名手机号、合规密码与账号名、选领域标签；三、后台实名认证，传身份证正反面并人脸识别；四、完善头像简介等资料后提交审核；五、审核通过后登录发布内容，注意封面图规格及规范勾选。

2025-12-18 18:06:07

713

要想尽快治好病打针比吃药更好吗？蚂蚁庄园课堂今天答案最新12月19日相信很多的伙伴想知道要想尽快治好病打针比吃药更好吗？蚂蚁庄园课堂今天答案最新12月19日，下面让php为你解答这个问题，跟小编一起来看看哦。立即进入“各种好用的网站推荐☜☜☜☜

2025-12-18 18:05:45

149

为什么打呼噜的人通常不会吵醒自己？蚂蚁庄园今日答案最新12.19 或许许多的伙伴还不明白为什么打呼噜的人通常不会吵醒自己？蚂蚁庄园今日答案最新12.19，下面让php的小编为您解答这个问题吧，希望能帮助到你。立即进入“各种好用的网站推荐☜☜☜

2025-12-18 18:05:35

831

抖音怎么屏蔽一个人抖音屏蔽指定用户方法可通过拉黑、设置“不让ta看”、单条视频“不给谁看”、朋友列表“不看他的作品”及开启私密账号五种方式定向屏蔽抖音用户。

2025-12-18 18:05:09

154

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Excel 教程

87110次学习
收藏
C# 教程

47412次学习
收藏
C++教程

88091次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部