字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜



,网络的初始输入为
,并将其复制 n 次,形成初始的超隐藏矩阵(Hyper Hidden Matrix):
,即:


,它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出
可以简单地表示为:
作为权重对输入
进行加权求和,得到当前层的输入
:
同时,
用于将
映射到残差超隐藏矩阵
,表示如下:


的元素可以动态依赖于输入
,动态超连接的矩阵表示为:
和输入
,可以得到动态超连接的输出:

的超连接矩阵:
和
分别表示神经网络层输入和输出的标准差,
表示它们之间的协方差。
的矩阵,右下三角部分填充为 1,其余部分为占位符 0。对于 Post-Norm,权重依赖于输入和输出的方差及协方差,形成一个
的矩阵。因此,它们的超连接矩阵是不可训练的。
矩阵,且权重是可训练的,甚至可以基于输入进行动态预测。






以上就是字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号