四倍提速，字节跳动开源高性能训练推理引擎LightSeq技术揭秘-人工智能-PHP中文网

四倍提速，字节跳动开源高性能训练推理引擎LightSeq技术揭秘

王林

发布： 2023-05-02 17:52:07

转载

1654人浏览过

Transformer模型出自于Google团队2017年发表的论文《Attention is all you need》，该论文中首次提出了使用Attention替换Seq2Seq模型循环结构的概念，给NLP领域带来了极大冲击。且随着近年来研究的不断推进，Transformer相关技术逐渐由自然语言处理流向其他领域。截止目前，Transformer系列模型已经成为了NLP、CV、ASR等领域的主流模型。

因此，如何更快地训练和推理Transformer模型已成为业界的一个重要研究方向。低精度量化技术能够通过降低数据的宽位来加速计算和通信过程，是现阶段模型训练推理加速的一个重要手段。但美中不足的是，量化会造成精度和效果的损失，需要通过量化感知和训练等手段进行降损。针对以上痛点，字节跳动研发升级了LightSeq训练推理加速引擎3.0版本，首次同步实现了精度无损的Transformer模型量化训练和量化推理。

LightSeq通过int8 GEMM实现了真量化训练过程，并非采用业界广泛使用的伪量化方法，能够实现模型训练速度4倍以上的提升。而通过PACT等量化策略，可以将量化训练的损失降到最低。在将量化模型导出为LightSeq支持格式后，可以进一步使用LightSeq量化推理引擎实现快速推理，在T4显卡上提速最高可达70%。

在7月21日的【T·TALK】技术分享活动中，我们特别邀请到了字节跳动算法工程师、LightSeq核心开发者熊鹰老师做客直播间，为广大观众揭秘字节跳动高性能训练推理引擎LightSeq的技术原理与实践细节。无论你是算法行业从业人员，还是热衷于钻研AI技术的开发者，相信你都能从本次分享中收获一些别样的技术经验与创新灵感。