DeepSeek 开源周第三弹：DeepGEMM —— 高效的 FP8 GEMM 库，核心代码仅 300 行！-手机软件-PHP中文网

DeepSeek 开源周第三弹：DeepGEMM —— 高效的 FP8 GEMM 库，核心代码仅 300 行！

看不見的法師

发布： 2025-07-02 13:36:21

原创

957人浏览过

2025 年 2 月 26 日，在开源周的第三天，deepseek 正式推出了其高效的 fp8 通用矩阵乘法（gemm）库 —— deepgemm。该库不仅支持密集矩阵运算，还兼容混合专家（moe）架构的 gemm 操作，为 v3/r1 模型的训练与推理提供了强大助力。尤为引人注目的是，deepgemm 的核心代码仅约 300 行，却展现出卓越的性能表现。

DeepSeek 开源周第三弹：DeepGEMM —— 高效的 FP8 GEMM 库，核心代码仅 300 行！

为何需要 DeepGEMM？
在大规模模型的训练与推理中，矩阵乘法（GEMM，General Matrix Multiplications）是最关键的计算操作之一，尤其在深度学习过程中占据了大量计算资源。随着模型规模的不断扩展，特别是混合专家模型（MoE）的广泛应用，传统 GEMM 实现已难以满足高效计算的需求。MoE 模型通过动态激活部分专家来提升模型容量，但也带来了稀疏性和动态性的问题，使传统的密集矩阵乘法难以高效处理。

此外，低精度计算（如 FP8）在深度学习中的应用日益广泛，因其能够在降低内存消耗的同时维持较高的计算效率。然而，现有 GEMM 库对 FP8 的支持仍较为有限，特别是在 MoE 场景下，缺乏专门优化。DeepGEMM 的推出正是为了应对上述挑战，它实现了高效的 FP8 矩阵乘法，并同时支持密集和 MoE 两种模式，显著提升了大模型训练与推理的效率。

DeepGEMM 的主要特点

高性能：在 NVIDIA Hopper GPU 上，DeepGEMM 的 FP8 计算性能超过 1350 TFLOPS，内存带宽峰值达到 2668 GB/s。
FP8 支持：作为首个专为 Hopper GPU 优化的 FP8 GEMM 库，DeepGEMM 能够有效减少内存占用并加速模型训练与推理过程。
简洁而强大的实现：尽管核心代码仅约 300 行，但其性能超越了许多专家级优化内核，这得益于团队在算法设计上的精妙构思及对 GPU 架构特性的深入理解。
即时编译（JIT）：采用轻量级 JIT 模块，可根据硬件配置和输入尺寸在运行时动态生成高度优化的代码，从而进一步提升性能。
支持密集与 MoE GEMM：不仅适用于传统密集矩阵乘法，还特别针对 MoE 模型中的 GEMM 运算进行了优化，满足多样化的模型计算需求。

DeepGEMM 的性能表现

DeepSeek 团队在 H800 GPU 上使用 NVCC 12.8 对 DeepGEMM 进行了全面测试，涵盖了 DeepSeek-V3/R1 推理中可能涉及的各种矩阵形状（包括预填充和解码阶段，但不包含张量并行）。测试结果表明，DeepGEMM 的计算性能最高可达 1358 TFLOPS，内存带宽峰值达 2668 GB/s。相比基于 CUTLASS 3.6 的优化实现，性能提升幅度最高达 2.7 倍；在 MoE 模型下的分组 GEMM（连续性布局和掩码布局）中，性能提升也超过 1.2 倍。