z lab 推出了开源推测解码框架 dflash,该框架采用轻量级 block diffusion 模型来生成草稿序列,旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引发的性能瓶颈。
DFlash 创新性地将目标模型的隐层特征融入草稿生成过程,作为上下文条件进行建模,从而实现高质量、高效率的并行草稿预测。

https://www.php.cn/link/b14306cd6ce646b9b7bee6ea942711a1
据官方测试结果,DFlash 在 Qwen3-8B 模型上达成高达 6.17 倍的无损推理加速,解码吞吐量相较当前最优的推测解码方案 EAGLE-3 提升近 2.5 倍。项目现已开源,并同步发布适配 Qwen3-4B 与 Qwen3-8B 的预训练草稿模型,相关技术论文正在整理中,即将正式公开。

研发团队透露,DFlash 正在紧锣密鼓地接入 vLLM 推理引擎,并已规划对大规模 MoE 架构模型的支持路线图。
源码地址:点击下载










