deepseek开启为期五天的开源成果发布,首个项目——flashmla闪亮登场!这款开源项目融合先进mla算法和gpu优化技术,为大模型推理提供高效、低延迟的解码方案。
FlashMLA专为Hopper架构GPU(如H800 SXM5)优化,旨在显著提升NVIDIA高端显卡上的大模型计算性能,尤其在处理可变长度序列时效率更高。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

PPIO派欧云率先对FlashMLA在主流Hopper GPU(H20、H100、H200、H800)上的性能进行了测试。在查看测试结果前,先了解一些背景知识:
名词解释:Hopper GPU、解码内核和MLA
- Hopper GPU: NVIDIA新一代高性能GPU架构,专为AI和高性能计算(HPC)打造,采用先进技术,在复杂计算中表现卓越。主流型号包括H20、H100、H200和H800。
- 解码内核: 用于加速解码任务的硬件或软件模块,能显著提升AI推理速度和效率,尤其在处理序列数据时。
- MLA (多头潜在注意力): 比传统多头注意力机制(MHA)更轻量级,在处理长序列时扩展性更好,性能也更优异。
FlashMLA性能测试结果
DeepSeek官方称FlashMLA在H800 SXM5 GPU上内存速度可达3000 GB/s,计算性能达580 TFLOPS。PPIO派欧云的测试涵盖不同参数配置(批次大小、序列长度、注意力头数量),结果如下:
- H20 GPU: 内存速度上限1024 GB/s,计算性能上限126 TFLOPS。

- H100 GPU: 内存速度上限2906 GB/s,计算性能上限526 TFLOPS。

- H200 GPU: 内存速度上限3887 GB/s,计算性能上限512 TFLOPS。

- H800 GPU: 内存速度上限3000 GB/s,计算性能上限580 TFLOPS。

注:测试基于官方脚本,由于最优参数未知,数据可能未达理论上限。
FlashMLA对主流推理框架的影响
FlashMLA的发布引发了业界关注,主流推理框架vLLM和SGLang均表示积极回应。vLLM团队计划很快集成FlashMLA,因其基于PagedAttention实现,与vLLM技术栈高度兼容。SGLang则已合并FlashInferMLA,性能与FlashMLA相当。











