一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

心靈之曲
发布: 2025-07-23 13:16:02
原创
281人浏览过

深度学习领域的一篇标志性论文,终于迎来了它的“封神”时刻!

在刚刚举行的 ICML 2025 大会上,2015 年发表的 Batch Normalization(批次归一化,简称 BatchNorm)论文荣获时间检验奖。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

这篇如今被引用超过 6 万次的开创性研究,是深度学习发展历程中的一个关键节点,极大地促进了深层神经网络的训练与广泛应用。

可以说,它是促使深度学习从实验室走向实际应用的重要技术之一。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

一个简单而强大的想法,让训练速度显著提升

2015 年时,深度学习界正面临一个棘手问题:如何稳定地训练深层神经网络?

研究人员发现,随着网络层数的增加,训练过程变得极其不稳定。必须小心控制学习率,否则梯度很容易消失或爆炸。

更糟糕的是,模型对参数初始化极为敏感,稍微改变初始化方式就可能导致完全无法训练。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

谷歌研究员 Sergey Ioffe 和 Christian Szegedy 抓住了问题的核心:在训练过程中,网络内部的数据分布不断变化。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

△左:Sergey Ioffe,右:Christian Szegedy

他们将这一现象命名为“内部协变量偏移”(Internal Covariate Shift),指的是在训练中,每一层的参数更新都会导致后续层输入数据分布的变化,迫使网络不断适应新的分布,从而带来训练困难。

他们的解决思路非常巧妙:既然标准化输入数据有助于模型训练,那么是否也可以对隐藏层做类似操作?

BatchNorm 的做法是对每个小批次数据计算均值和方差,并据此进行标准化处理,使数据服从均值为 0、方差为 1 的分布。

但其中还有一个巧妙设计——引入两个可学习参数 γ(缩放因子)和 β(平移因子),允许网络自主调整输出分布,从而保持模型表达能力不受限制。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

原论文的实验结果令人惊艳,在当时最先进的图像分类模型上,使用 BN 后仅需原来 1/14 的训练步数即可达到相同精度。

并在 ImageNet 分类任务中取得当时最佳成绩,超越了人类评估者的准确率。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

成为深度学习基石,却被质疑理论基础

BatchNorm 初版提交于 2015 年初,其影响力远超作者预期,不仅提升了训练效率,还带来了意想不到的好处。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

例如,它具有一定的正则化效果。由于每个小批次的统计量存在微小差异,这种噪声效应类似于 Dropout,有助于提升模型泛化能力,甚至在某些情况下可以替代 Dropout。

在 BatchNorm 出现之前,训练几十层以上的网络极为困难。

2015 年底,何恺明等人提出的 ResNet 结合残差连接与 BatchNorm,使得训练上百乃至上千层的超深网络成为可能。

此后几乎所有主流卷积神经网络(如 ResNet、DenseNet、Inception)及其他类型的模型都广泛采用了 BatchNorm。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

然而,戏剧性的转折出现在 2018 年。

MIT 的研究团队挑战了 BatchNorm 的核心理论。

他们在标准 BN 层后加入随机噪声,人为制造“内部协变量偏移”。按原理论,这应该会削弱 BN 的效果。

但实验结果显示,即使存在剧烈分布偏移,BN 模型的训练速度仍远胜于未使用 BN 的模型。

小文AI论文
小文AI论文

轻松解决论文写作难题,AI论文助您一键完成,仅需一杯咖啡时间,即可轻松问鼎学术高峰!

小文AI论文69
查看详情 小文AI论文

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

该研究指出,BatchNorm 实际上改善了优化空间的平滑性,使梯度更加稳定可控,从而加快训练速度。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

到了 2022 年,又有研究从几何角度提供了新见解。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

这项研究表明,BN 其实是一种无监督学习机制,能够让网络在训练初期就主动适应数据结构,相当于一种“智能初始化”。

此外,由小批次统计量波动带来的噪声还能扩大分类边界,从而提升模型泛化性能。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

两位作者现状如何?

十年过去,这篇改变历史的论文的两位作者 Sergey Ioffe 和 Christian Szegedy 现在都在哪里?

两人曾在谷歌工作十余年,直到 2023 年 Christian Szegedy 加入马斯克团队,成为 xAI 联合创始人。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

2024 年初,Sergey Ioffe 也加入 xAI,参与 Grok 4 的开发工作。

不过后来 Christian Szegedy 离开 xAI,转投 AI 编程初创公司 Morph Labs 担任首席科学家。

这家公司目标宏大——致力于实现“可验证的超级智能”。这位深度学习先驱,正在为 AI 的下一个十年布局。

 一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖

BatchNorm 原始论文:

https://www.php.cn/link/4efa2dce0e842cbc488548530dd8bf01

参考链接:

[ 1 ] https://www.php.cn/link/35296a4054db6816185054cbdc02e041

[ 2 ] https://www.php.cn/link/fa1d8223da871d94d79d2f175e0f5f1d

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的观点!

— 完 —

专属 AI 产品从业者的实名社群,只聊最落地的 AI 产品真问题。扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后你将获得:

最新最专业的 AI 产品信息及分析

不定期发放热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿每日更新

以上就是一篇被证明“理论有误”的论文,拿下了 ICML2025 时间检验奖的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号