将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

PHPz

发布时间：2023-06-07 22:33:21

1459人浏览过

来源于51CTO.COM

转载

预训练大语言模型（LLM）在特定任务上的性能不断提高，随之而来的是，假如 prompt 指令得当，其可以更好的泛化到更多任务，很多人将这一现象归功于训练数据和参数的增多，然而最近的趋势表明，研究者更多的集中在更小的模型上，不过这些模型是在更多数据上训练而成，因而在推理时更容易使用。

举例来说，参数量为 7B 的 LLaMA 在 1T token 上训练完成，尽管平均性能略低于 GPT-3，但参数量是后者的 1/25。不仅如此，当前的压缩技术还能将这些模型进一步压缩，在保持性能的同时还能大幅减少内存需求。通过这样的改进，性能良好的模型可以在终端用户设备（如笔记本）上进行部署。

然而，这又面临另一个挑战，即想要将这些模型压缩到足够小的尺寸以适应这些设备，怎样才能兼顾生成质量。研究表明，尽管压缩后的模型生成的答案准确率还可以，但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的，依赖于先前生成的 token，小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量，关键是设计出低位宽的量化方法，与 16 位模型相比不会降低预测性能。

然而，将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失，特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。

为了解决准确性问题，来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR（Sparse-Quantized Representation，稀疏 - 量化表征），首次实现了 LLM 跨模型尺度的近无损压缩，同时达到了与以前方法相似的压缩水平。

SpQR 通过识别和隔离异常权重来工作，这些异常权重会导致特别大的量化误差，研究者将它们以更高的精度存储，同时将所有其他权重压缩到 3-4 位，在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM，而不会有任何性能下降，同时还能提高 15% 的速度。

SpQR 算法高效，既可以将权重编码为其他格式，也可以在运行时进行有效地解码。具体来说，该研究为 SpQR 提供了一种高效的 GPU 推理算法，可以比 16 位基线模型更快地进行推理，同时实现了超过 4 倍的内存压缩收益。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2306.03078.pdf
项目地址：https://github.com/Vahe1994/SpQR

方法

该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征（SpQR），可以将精确预训练的 LLM 压缩到每个参数 3-4 位，同时保持近乎无损。

具体来说，该研究将整个过程分为两步。第一步是异常值检测：该研究首先孤立了异常值权重，并证明其量化会导致高误差：异常值权重保持高精度，而其他权重以低精度（例如 3 位的格式）存储。然后，该研究以非常小的组大小实现分组量化（grouped quantization）的变体，并表明量化尺度本身可以被量化为 3 位表征。

SpQR 极大地减少了 LLM 的内存占用，而不会降低准确性，同时与 16 位推理相比，LLM 的生成速度快了 20%-30%。

此外，该研究发现，权重矩阵中敏感权重的位置不是随机的，而是具有特定的结构。为了在量化过程中突出显示其结构，该研究计算了每个权重的敏感度，并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。