讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

DDD

发布时间：2024-11-07 18:31:25

|

836人浏览过

|

来源于机器之心

转载

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。

但是，现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡，无法同时解决。

为此，字节豆包大模型 Foundation 团队于近日提出超连接（Hyper-Connections），针对上述 “跷跷板式” 困境，实现了显著提升。

该方法适用于大规模语言模型（LLMs）的预训练，在面向 Dense 模型和 MoE 模型的实验中，展示了显著性能提升效果，使预训练收敛速度最高可加速 80%。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

研究团队还发现，超连接在两个小型的视觉任务中表现同样优异，这表明，该方法在多个领域有广泛的应用前景。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

论文标题：Hyper-Connections
论文链接：https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及，残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性，具体体现如下：

Pre-Norm：在每个残差块之前进行归一化操作，可有效减少梯度消失问题。然而，Pre-Norm 在较深网络中容易导致表示崩溃，即深层隐藏表示过于相似，从而削弱了模型学习能力。
Post-Norm：在残差块之后进行归一化操作，有助于减少表示崩溃问题，但也重新引入梯度消失问题。在 LLM 中，通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接（Depth-connections）和宽度连接（Width-connections）。

从理论上，这使得模型不仅能够动态调整不同层之间的连接强度，甚至能重新排列网络层次结构，弥补了残差连接在梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。

深度连接与宽度连接

起初，该方法会将网络输入扩展为 n 个隐向量（n 称作 Expansion rate）。之后每一层的输入都会是 n 个隐向量，超连接会对这些隐向量建立以下两类连接：

深度连接（Depth-Connections）：这些连接类似于残差连接，只为输入与输出之间的连接分配权重，允许网络学习不同层之间的连接强度。
宽度连接（Width-Connections）：这些连接使得每一层多个隐藏向量之间可进行信息交换，从而提高模型表示能力。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

静态与动态超连接

超连接可以是静态的，也可以是动态的。

其中，静态超连接（Static Hyper-Connections, SHC）意味着连接权重在训练结束后固定不变。而动态超连接（Dynamic Hyper-Connections, DHC）则对应连接权重可根据输入动态调整。实验表明，动态超连接效果更好。

2. 技术细节

超连接（Hyper-connections）

首先，考虑第 k 层的输入隐藏向量字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，网络的初始输入为

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，并将其复制 n 次，形成初始的超隐藏矩阵（Hyper Hidden Matrix）：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

这里，n 称为扩展率（Expansion Rate）。在第 k 层，输入是上一层的超隐藏矩阵字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，即：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

对最后一层的超隐藏矩阵逐行求和，得到所需的隐藏向量，并通过一个投影层输出网络最终的结果（在 Transformer 中即为归一化层和解嵌入层）。

为了简化后续分析的符号表示，作者省略层索引，直接将超隐藏矩阵表示为：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

超连接可以用一个矩阵来表示，对于扩展率为 n 的情况，超连接矩阵 HC 如下：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

考虑一层网络

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

可以简单地表示为：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

也就是说，用

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

作为权重对输入

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

进行加权求和，得到当前层的输入字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

同时，

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

用于将

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

映射到残差超隐藏矩阵字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，表示如下：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

最终的输出表达式为：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

伪代码如下:

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

动态超连接的实现

超连接矩阵

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

的元素可以动态依赖于输入字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，动态超连接的矩阵表示为：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

同样，给定层

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

和输入

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

，可以得到动态超连接的输出：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

在实际操作中，团队结合了静态和动态矩阵来实现动态超连接，动态参数通过线性变换获得。

为了稳定训练过程，团队在线性变换前引入归一化，并在其后应用 tanh 激活函数，通过一个可学习的小因子进行缩放。动态参数的计算公式如下：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

实验表明，动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接（Hyper-Connections）

研究团队认为，残差连接的两种变体，即前归一化（Pre-Norm）和后归一化（Post-Norm），可以被视为不可训练的超连接。

随后，团队引入了顺序 - 并行二象性概念，展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

的超连接矩阵：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

其中，

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

和

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

分别表示神经网络层输入和输出的标准差，字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

表示它们之间的协方差。

对于 Pre-Norm，其超连接矩阵是一个字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

的矩阵，右下三角部分填充为 1，其余部分为占位符 0。对于 Post-Norm，权重依赖于输入和输出的方差及协方差，形成一个字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

的矩阵。因此，它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

矩阵，且权重是可训练的，甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块，我们可以将它们顺序排列或并行排列。作者认为，超连接可以学习如何将这些层重新排列，形成顺序和并行配置的混合。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

在不失一般性的情况下，可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习，神经网络将被顺序排列：

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

在这种情况下，深度连接退化为残差连接，如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时，神经网络每两层将被并行排列，类似于 Transformer 中的 parallel transformer block 的排列方式，如图 (b) 所示。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

因此，通过学习不同形式的超连接矩阵，网络层的排列可以超越传统的顺序和并行配置，形成软混合甚至动态排列。对于静态超连接，网络中的层排列在训练后保持固定；而对于动态超连接，排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上，涵盖了 Dense 模型和 MoE 模型。

实验结果表明，使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

只要扩展率 > 1，效果就十分显著，且训练更稳定，消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型，效果也十分亮眼，同时可以看到有超连接的网络训练更稳定。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

7B 候选激活 1.3B 的 MoE 模型实验

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

可以看到，下游指标全涨，在 ARC-Challenge 上甚至涨了 6 个百分点。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

综上，研究团队介绍了超连接（Hyper-Connections），它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明，超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是，超连接的引入几乎不增加额外的计算开销或参数量，团队认为，该成果具有广泛的应用潜力，可以推广到文音视图模态的不同任务上，包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题，尤其在 LLMs 和多模态方面，期望实现更多突破。

更多团队技术研究进展，可以进入「豆包大模型团队」技术解读栏目了解。

相关文章

怎么用ai做客服机器人_AI智能问答库建立与自动回复设置

怎么用ai做海报_AI平面设计与视觉元素构成方法

怎么用ai阅读PDF文档_AI长文档快速摘要与关键信息问答技巧

怎么用ai做产品原型_AI UI/UX设计稿生成与交互界面快速搭建指南

怎么用ai做数据分析_AI数据可视化图表生成与洞察报告撰写指南

AI工具

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

字节跳动豆包大模型排列豆包抖音豆包豆包app 人工智能豆包 Static transformer https Foundation

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：不靠更复杂的策略，仅凭和大模型训练对齐，零样本零经验单LLM调用，成为网络任务智能体新SOTA 下一篇：三星亮相进博会，AI显示“玩”出新花样

作者最新文章

Python 中变量赋值的本质：引用传递 ≠ 引用绑定的持续同步

2026-01-18 16:39

转转大师如何压缩PDF

2026-01-18 16:45

使用绝对路径避免相对路径维护问题：__DIR__ 魔术常量的最佳实践

2026-01-18 16:47

《圣歌》一开始没能搞清定位 BioWare试图对标暗黑

2026-01-18 16:47

如何在 HTML/JavaScript 测验应用中实现题目随机化

2026-01-18 16:49

1：1手搓纽约曼哈顿！利用MC还原地球并非不可能

2026-01-18 16:51

如何在下拉菜单选项被选中时获取其 ID

2026-01-18 16:52

如何在 Magento 中安全集成 AmpPHP 实现并行处理

2026-01-18 16:52

Google OAuth2 频繁弹出授权确认页的解决方案

2026-01-18 17:00

VMware Workstation如何更改默认虚拟机路径

2026-01-18 17:02

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1989

2024.08.16

高德地图升级方法汇总

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

72

2026.01.16

全民K歌得高分教程大全

全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总，阅读专题下面的文章了解更多详细内容。

131

2026.01.16

C++ 单元测试与代码质量保障

C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法，包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程，以及常见代码质量问题的发现与修复。通过工程化示例，帮助开发者建立可测试、可维护、高质量的 C++ 项目体系。

54

2026.01.16

java数据库连接教程大全

java数据库连接教程大全

本专题整合了java数据库连接相关教程，阅读专题下面的文章了解更多详细内容。

39

2026.01.15

Java音频处理教程汇总

Java音频处理教程汇总

本专题整合了java音频处理教程大全，阅读专题下面的文章了解更多详细内容。

19

2026.01.15

windows查看wifi密码教程大全

windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全，阅读专题下面的文章了解更多详细内容。

85

2026.01.15

浏览器缓存清理方法汇总

浏览器缓存清理方法汇总

本专题整合了浏览器缓存清理教程汇总，阅读专题下面的文章了解更多详细内容。

43

2026.01.15

ps图片相关教程汇总

ps图片相关教程汇总

本专题整合了ps图片设置相关教程合集，阅读专题下面的文章了解更多详细内容。

11

2026.01.15

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 4.7万人学习

Node.js 教程

Node.js 教程

共57课时 | 8.9万人学习

CSS3 教程

CSS3 教程

共18课时 | 4.7万人学习

最新文章

更多

RemovebgAI怎样保留原色去背_RemovebgAI保留原色去背窍门【窍门】

Sketch导入PS用PDF好吗_Sketch格式优选法【判断】

DeepDream怎样强化纹理插画_DeepDream纹理强化术【法门】

AI抠图怎样适配小程序_适配小程序AI抠图用PicWish轻嵌入【攻略】

怎么用ai制作MV_AI歌词生成视频画面与音乐可视化创作指南

AI绘画怎样快速配出柔美渐变色_AI绘画柔和渐变色调配法【诀窍】

StableDiffusion如何合并图层_StableDiffusion合并图层实现路径【教程】

怎么用ai回复邮件_AI商务邮件撰写与多语言快速响应教程

DALL·E怎样精准控制色彩_DALL·E精准控制色彩有何窍门【要点】

怎么用ai做动画_AI短动画制作与角色动态生成方法

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部