最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

WBOY

发布时间：2023-10-05 20:09:12

1058人浏览过

来源于51CTO.COM

转载

如果你曾经与任何一款对话式 AI 机器人交流过，你一定会记得一些令人感到非常沮丧的时刻。比如，你在前一天的对话中提到的重要事项，被 AI 完全忘记了……

这是因为当前的多数 LLM 只能记住有限的上下文，就像为考试而临时抱佛脚的学生，稍加盘问就会「露出马脚」。

如果AI助手能够在聊天中根据上下文参考几周或几个月前的对话，或者你可以要求AI助手总结长达数千页的报告，那么这样的能力是不是令人羡慕呢？

为了让LLM能够更好地记住和记得更多内容，研究人员一直在不断努力。最近，来自麻省理工学院、Meta AI和卡内基梅隆大学的研究人员提出了一种名为「StreamingLLM」的方法，使得语言模型能够流畅地处理无穷无尽的文本

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

论文地址：https://arxiv.org/pdf/2309.17453.pdf
项目地址：https://github.com/mit-han-lab/streaming-llm

StreamingLLM 的工作原理是识别并保存模型固有的「注意力池」（attention sinks）锚定其推理的初始 token。结合最近 token 的滚动缓存，StreamingLLM 的推理速度提高了 22 倍，而不需要牺牲任何的准确性。短短几天，该项目在 GitHub 平台已斩获 2.5K 星：

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

具体来说，StreamingLLM 是一种使语言模型能够准确无误地记住上一场比赛的得分、新生儿的名字、冗长的合同或辩论内容的技术。就像给 AI 助理升级了内存一样，它能够完美地处理更加繁重的工作

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

接下来让我们看看技术细节。

方法创新

通常，LLM 在预训练时受到注意力窗口的限制。尽管为扩大这一窗口大小、提高训练和推理效率，此前已有很多工作，但 LLM 可接受的序列长度仍然是有限的，这对于持久部署来说并不友好。

在这篇论文中，研究者首先介绍了 LLM 流应用的概念，并提出了一个问题：「能否在不牺牲效率和性能的情况下以无限长输入部署 LLM？」

将 LLM 应用于无限长输入流时，会面临两个主要挑战：

1、在解码阶段，基于 transformer 的 LLM 会缓存所有先前 token 的 Key 和 Value 状态（KV），如图 1 (a) 所示，这可能会导致内存使用过多，并增加解码延迟；

2、现有模型的长度外推能力有限，即当序列长度超过预训练时设定的注意力窗口大小时，其性能就会下降。

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

一种直观的方法被称为窗口注意力（Window Attention）（如图 1 b），这种方法只在最近 token 的 KV 状态上保持一个固定大小的滑动窗口，虽然能确保在缓存填满后仍能保持稳定的内存使用率和解码速度，但一旦序列长度超过缓存大小，甚至只是驱逐第一个 token 的 KV，模型就会崩溃。另一种方法是重新计算滑动窗口（如图 1 c 所示），这种方法会为每个生成的 token 重建最近 token 的 KV 状态，虽然性能强大，但需要在窗口内计算二次注意力，因此速度明显更慢，在实际的流应用中并不理想。

在研究窗口注意力失效的过程中，研究人员发现了一个有趣的现象：根据图2显示，大量的注意力分数被分配给了初始的标记，而不论这些标记是否与语言建模任务相关

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

研究者将这些 token 称为「注意力池」：尽管它们缺乏语义上的意义，但却占据了大量的注意力分数。研究者将这一现象归因于于 Softmax（要求所有上下文 token 的注意力分数总和为 1），即使当前查询在许多以前的 token 中没有很强的匹配，模型仍然需要将这些不需要的注意力值分配到某处，从而使其总和为 1。初始 token 成为「池」的原因很直观：由于自回归语言建模的特性，初始 token 对几乎所有后续 token 都是可见的，这使得它们更容易被训练成注意力池。

根据以上洞察，研究者提出了StreamingLLM。这是一个简单而高效的框架，可以让使用有限注意力窗口训练的注意力模型在不进行微调的情况下处理无限长的文本

StreamingLLM 利用了注意力池具有高注意力值这一事实，保留这些注意力池可以使注意力分数分布接近正态分布。因此，StreamingLLM 只需保留注意力池 token 的 KV 值（只需 4 个初始 token 即可）和滑动窗口的 KV 值，就能锚定注意力计算并稳定模型的性能。

使用 StreamingLLM，包括 Llama-2-[7,13,70] B、MPT-[7,30] B、Falcon-[7,40] B 和 Pythia [2.9,6.9,12] B 在内的模型可以可靠地模拟 400 万个 token，甚至更多。

与重新计算滑动窗口相比，StreamingLLM 的速度提高了22.2倍，而没有影响性能的损失

测评

在实验中，如图3所示，对于跨度为20K个标记的文本，StreamingLLM的困惑度与重新计算滑动窗口的Oracle基线相当。同时，当输入长度超过预训练窗口时，密集注意力会失效，而当输入长度超过缓存大小时，窗口注意力会陷入困境，导致初始标记被剔除

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

图 5 进一步证实了 StreamingLLM 的可靠性，它可以处理非常规规模的文本，包括 400 多万个标记，覆盖了各种模型系列和规模。这些模型包括 Llama-2-[7,13,70] B、Falcon-[7,40] B、Pythia-[2.8,6.9,12] B 和 MPT-[7,30] B

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

随后，研究者证实了「注意力池」的假设，并证明语言模型可以通过预训练，在流式部署时只需要一个注意力池 token。具体来说，他们建议在所有训练样本的开头多加一个可学习的 token，作为指定的注意力池。通过从头开始预训练 1.6 亿个参数的语言模型，研究者证明了本文方法可以保持模型的性能。这与当前的语言模型形成了鲜明对比，后者需要重新引入多个初始 token 作为注意力池才能达到相同的性能水平。

最后，研究者进行了 StreamingLLM 的解码延迟和内存使用率与重新计算滑动窗口的比较，并在单个英伟达 A6000 GPU 上使用 Llama-2-7B 和 Llama-2-13B 模型进行了测试。根据图10的结果显示，随着缓存大小的增加，StreamingLLM 的解码速度呈线性增长，而解码延迟则呈二次曲线上升。实验证明，StreamingLLM 实现了令人印象深刻的提速，每个 token 的速度提升高达22.2倍

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

更多研究细节，可参考原论文。

2026款宋Pro DM-i 220公里长续航发布限时11.98万元起

MAI-UI— 阿里通义开源的全尺寸GUI智能体基座模型

Arcads教程：AI UGC广告制作，告别传统模式！

春季时尚穿搭：打造你的专属时尚造型，提升穿搭技巧

AI图像视频生成：无限创意，一键实现！

Github

Github是一款非常实用的代码开放工具，用户可以按照自己的需求进行搜索，从而快速定位到所需的代码或项目位置，还能在软件中建立自己的代码仓库，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6078

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

797

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1056

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1206

2024.03.01

oracle清空表数据

当表中的数据不需要时，则应该删除该数据并释放所占用的空间。本专题为大家提供oracle清空表数据的相关文章，帮助大家解决该问题。

264

2023.08.16

Oracle中declare的使用

Oracle DECLARE语句是PL/SQL编程语言中用于声明变量、常量、游标或异常的关键字。它的主要作用是在程序中定义这些对象，以便在后续的代码中使用。DECLARE语句的语法简单明了，可以根据需要声明多个对象。通过使用这些声明的对象，可以进行各种操作，如计算、查询数据库、处理异常等。

202

2023.09.15

oracle怎么分页

实现分页的步骤：1、使用ROWNUM进行分页查询；2、在执行查询之前进行设置分页参数；3、使用"COUNT(*)"函数来获取总行数，并使用"CEIL"函数来向上取整计算总页数；4、在外部查询中使用"WHERE"子句来筛选出特定的行号范围，以实现分页查询。想了解更多oracle怎么分页的文章，可以来阅读本专题先的文章。

233

2023.09.18

Oracle查看表操作历史记录

查看操作历史记录的方法：1、使用Oracle内置的审计功能，可以记录数据库中发生的各种操作，包括登录、DDL语句、DML语句等；2、使用Oracle日志文件，其中包含了数据库中发生的各种操作，可以通过查看日志文件来获取操作历史记录；3、使用Oracle的Flashback功能，可以查看数据库在某个时间点的操作历史记录；4、使用第三方工具等。本专题还提供其他查看表操作的文章，大家可以免费阅读。

449

2023.09.19

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板