首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

聖光之護
发布: 2025-02-17 13:26:17
原创
1041人浏览过

加州大学伯克利分校吴梓阳博士及其团队提出了一种新型transformer架构——token statistics transformer (tost),其核心是线性时间复杂度的注意力机制。这项研究成果已发表在iclr 2025,并被选为spotlight论文。马毅教授将在今年四月iclr大会上进行主题报告。

图片

ToST巧妙地解决了传统Transformer架构中自注意力机制计算复杂度高的问题。传统自注意力机制的计算复杂度随输入token数量呈二次方增长,而ToST通过对序列特征的统计建模,将时间复杂度降低至线性。 这使得ToST能够高效处理更长序列和更大模型。

图片

核心创新:Token Statistics Self-Attention (TSSA)

ToST的核心是TSSA,它通过避免两两相似性计算,仅依赖于token特征的统计量,从而实现线性复杂度。 该方法基于变分编码率缩减(Variational Rate Reduction, VRR)框架,并通过实验验证了其在不同任务上的有效性。

图片

方法概述: ToST通过提取统计特征,利用VRR框架压缩特征,最终实现线性时间复杂度。 其架构基于先前CRATE工作的扩展,通过最大编码率缩减目标(MCR²)的变分形式推导得出。

图片

图片

实验结果与性能分析: ToST在多个领域(NLP、CV)的任务中都取得了优异的成绩,同时显著降低了计算资源消耗。实验结果表明,ToST在计算时间和内存使用上均实现了线性扩展,且性能与传统Transformer架构相当甚至更好。

图片图片图片图片图片图片图片

未来影响: ToST的线性时间复杂度注意力机制,为大模型的高效化、Transformer的普适化应用、多模态融合以及跨学科应用提供了新的可能性,具有重要的学术意义和应用价值。

以上就是首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号