DeepSeek 开源周第一弹：FlashMLA —— 大模型推理的“涡轮增压器”-手机软件-PHP中文网

DeepSeek 开源周第一弹：FlashMLA —— 大模型推理的“涡轮增压器”

蓮花仙者

发布： 2025-07-02 12:48:16

原创

349人浏览过

2025 年 2 月 24 日，中国人工智能明星企业 deepseek 正式拉开“开源周”序幕，并率先推出重磅技术成果 —— flashmla。这款专为 nvidia hopper gpu 设计的高性能解码内核，深度优化了多头潜注意力（mla）机制，在处理变长序列的大语言模型（llm）推理任务中展现出卓越性能。

DeepSeek 开源周第一弹：FlashMLA —— 大模型推理的“涡轮增压器”

FlashMLA 是什么？

FlashMLA 是 DeepSeek 专为 Hopper 架构 GPU（如 H100/H800）打造的 MLA 解码内核。其核心目标是通过动态内存调度与并行计算优化，显著提升大语言模型在处理可变长度序列时的推理效率。

FlashMLA 的性能表现如何？

在 H800 SXM5 GPU 上，基于 CUDA 12.6 的测试数据显示：

内存受限场景下：传输速度高达 3000 GB/s。
计算受限场景下：算力可达 580 TFLOPS。

FlashMLA 的工作原理

在自然语言处理和生成式 AI 等任务中，输入数据通常具有不规则的长度，这对传统解码器构成挑战。FlashMLA 利用 Hopper GPU 的架构优势，优化内存使用与计算流程，确保无论输入长度如何变化，都能实现高效稳定的性能输出。

其关键创新包括对 BF16 格式的支持以及采用块大小为 64 的分页 KV 缓存机制，这些设计有效降低了内存开销和延迟，使其成为实时 AI 应用的理想选择。开发者将因此获得更快速的模型训练与推理体验，尤其适用于复杂且动态的数据集。

此外，FlashMLA 还融合了 FlashAttention 2&3 和 CUTLASS 等项目的最佳实践，进一步提升了整体性能与兼容性。

FlashMLA 的主要优势

针对 Hopper GPU 的极致优化
借助 NVIDIA Hopper 架构的 Tensor Cores 和 Transformer Engines，FlashMLA 实现了 3000 GB/s 的内存带宽与 580 TFLOPS 的计算能力，轻松应对 LLM 的高负载运算需求。
支持变长序列处理
特别适合 NLP 场景，能够灵活适应各种输入长度，广泛应用于聊天机器人、翻译系统及文本生成等实际场景。
高效的内存管理机制
分页 KV 缓存设计（块大小为 64）提升了内存利用率，减少了推理延迟，特别适用于内存受限的大型模型。
BF16 精度优化
支持 BF16 数据格式，在保证精度的同时降低内存占用，加快计算速度，更适合资源受限环境下的模型部署或扩展。
支持超大规模模型推理
通过优化数据流动和内存访问，FlashMLA 可运行超出 GPU 显存容量两倍的模型，相比 CPU 提速 4-5 倍，GPU 上提速达 20-25 倍，无需昂贵硬件即可支撑超大模型运行。