
Omni-Infer v0.4.2 正式上线,带来面向超大规模 MoE 模型的高效推理加速方案
本次版本主要更新亮点如下:
| 模型 | 硬件 | 精度类型 | 部署形态 |
|---|---|---|---|
| 支持DeepSeek-v3.2-Exp | A3 | BF16 | PD分离 |
| 支持DeepSeek-v3.2-Exp | A3 | W8A8C16 | PD分离 |
| 支持DeepSeek-v3.2-Exp | A3 | Prefill W4A8C16,Decode W8A8C16 | PD分离 |
| BF16 1P32-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 64K-1K | 2 | 32 | 3.37 |
| 32K-1K | 6 | 34 | 1.70 |
| 16K-1K | 8 | 34 | 0.97 |
| INT8 2P16-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 128K-1K | 2 | 32 | 7.834 |
| 64K-1K | 4 | 30 | 3.736 |
| 32K-1K | 6 | 28 | 1.88 |
| 16K-1K | 8 | 27 | 0.979 |
| Prefill INT4/Decode INT8 4P8-1D32 | 单机BS | TPOT(ms) | 单条请求TTFT(s) |
|---|---|---|---|
| 64K-1K | 4 | 31 | 6.10 |
| 32K-1K | 8 | 29 | 3.05 |
| 16K-1K | 8 | 30 | 1.51 |
| 硬件 | 架构 | 镜像文件 | Tar包 |
|---|---|---|---|
| A3 | arm | docker pull swr.cn-east-4.myhuaweicloud.com/omni/omni\_infer-a3-arm:release\_v0.4.2 | omni\_infer-a3-arm:v0.4.2 |
提供以下量化版本权重下载:
DeepSeek-V3.2-Exp-BF16
DeepSeek-V3.2-Exp-INT8
DeepSeek-V3.2-Exp-INT4
提取码:omniinfer
包含完整测试流程的性能评估脚本:
Deepseek-v3.2-Exp 性能测试脚本
更多详情请访问:https://www.php.cn/link/37107d39373c202221d6672722f514cf
源码下载地址:点击获取
以上就是Omni-Infer v0.4.2 已经发布,超大规模 MoE 模型推理加速技术的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号