分享丨大规模神经网络优化：神经网络损失空间“长”什么样？-天涯论坛

lbk60ox 发表于 2024-8-31 05:50:39

分享丨大规模神经网络优化：神经网络损失空间“长”什么样？

转载 PaperWeekly 作者郑奘巍
©作者 | 郑奘巍
单位 | 新加坡国立大学
科研方向 | 有效设备学习、神经网络优化
We should use the special structure properties of f（for example f is a given by a neural network）to optimize it faster, instead of purely relying on optimization algorithms.
― Yuanzhi Li
Adam 虽然叫作作”通用“优化算法，虽然在大语言模型等 Transformer 架构上表现的好，但它亦并不是万能的，在视觉模型的泛化性，以及有些凸问题上收敛的表现都无 SGD 要好。正如本篇开头所引，咱们要关注特殊网络结构的特殊性质（例如 Transformer）。
怎样刻画网络的优化性质呢？在优化关联的论文中，一般经过分析 Hessian 矩阵及其特征值，或将损失函数进行一维或二维的可视化来分析网络的优化性质。咱们期盼这些指标能够帮忙咱们更好的理解网络损失的 landscape，优化器优化轨迹的性质等等。咱们期盼将这些指标刻画的性质与优化器的设计相关起来。咱们亦期盼找到合适的指标来反应随着网络参数、数据量、批量体积等参数的变化，网络的优化性质怎样变化「R1」。
本文讨论的方向倘若有新的动向，亦会连续更新。倘若有任何错误/问题/讨论，欢迎在评论区留言。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-axegupay5k/b217496dfa524b678a0003f1d977537f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=EXxXm%2BBAns%2BNRWWjC%2BwA9%2FJPjyM%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Hessian 阵</h1>
海量对神经网络损失空间的科研都是基于 Hessian 阵的。Hessian 阵是损失函数的二阶导数。因为 Hessian 阵是实对叫作矩阵，能够应用特征分解。它的特征值和特征向量能够帮忙咱们理解损失函数的 landscape。这儿咱们不太严谨的介绍有些优化文案中平常的概念。
<h1 style="color: black; text-align: left; margin-bottom: 10px;">1.1 平常概念</h1>
Curvature 曲率：数学定义为一点处密切圆弧的半径的倒数，它刻画了函数与直线的差距。在梯度为 0 的点时，Hessian 阵行列式为曲率。
Eigenvalue 特征值：Hessian 阵的特征值越大，对应的特征向量（Eigenvector）方向就越陡（凸性越强）。最大特征值对应的方向为最大曲率的方向。倘若思虑以特征向量对应方向的单位向量做为基张成的空间，该空间叫作为特征空间 Eigenspace，对应的单位向量为 Eigenbasis。
Conditioning number 要求数：Hessian 阵的最大特征值与最小特征值的比值。条件数越大，系统越不稳定。
Axis-aligned 坐标轴对齐：Hessian 阵的特征向量是不是与坐标轴平行。
Smoothness 光滑（通常指 Lipschitz 梯度要求）：。倘若是二阶可导凸函数，则有。即 Smoothness 限制了 Hessian 阵特征值的体积（和变化幅度的上限），不可大于。
Strong Convexity 强凸性：虽然神经网络通常都是非凸优化，但这儿咱们引入凸性用以和光滑对应，以便于理解。强凸性的定义为。即 Strong Convexity 限制了 Hessian 阵特征值的体积（和变化幅度的下限），不可少于 m。
Sharpness / Flatness 平坦程度：对 Hessian 特征谱分布状况的描述。Sharp 指 Hessian 阵特征值含有海量大值，Flat 指 Hessian 阵特征值含有海量小值（绝大部分接近 0）。另一种定义办法是直接将 Sharpness 定义为最大的特征值。Hessian 阵退化（degenerate）/ 奇异（singular）/ 低秩 / 线性关联是 Flat 的一种表现。一般收敛点平坦有利于泛化性能（Hessian 阵是实对叫作矩阵，特征值和奇异值相等）。
平常地形（terrain, landscape）：
驻点（stationary point），临界点（critical point）：鞍点：H 非正定的驻点plateaus：平坦地，持有小曲率的平面basins：盆地，局部最优点的集合wells：井，鞍点的集合
局部的泰勒展开到二阶：
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/6095fcf6737141c699a377b237c7d24b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=vd9lnKBFEUIL7OJpU0xxTD9BvLk%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">1.2 费雪信息</h1>
Fisher information matrix 费雪信息：
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/bb81ac074ecc4f25bac8b3a455c09484~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=Rejg3LSpEn0WQr9GK9SH4l1AeIE%3D" style="width: 50%; margin-bottom: 20px;"></div>费雪信息总是对叫作半正定阵。因为 ，因此 Fisher information （二阶矩）衡量了不一样本对应导数的方差（）。，因此 Fisher information 同期是运用 log-likelihood 衡量的函数的 Hessian 阵的期望。证明可参考此处：https://mark.reid.name/blog/fisher-information-and-log-likelihood.html归类模型建模的分布是。在训练初期，网络的输出与真实分布的差距很大。倘若按照网络输出的标签采样，能够得到对应分布的 Hessian 阵（半正定）但并不是咱们关心的真实分布的 Hessian 阵。当模型分布与真实分布的差距很小时，Fisher information 能够近似为 Hessian 阵的期望。
<h1 style="color: black; text-align: left; margin-bottom: 10px;">1.3 Gauss-Newton 阵</h1>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Gauss-Newton decomposition：记神经网络输出为，其中为损失函数，则网络的黑塞阵有如下分解。以一维 f 为例，高维可参考此处：</h1>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">https://andrew.gibiansky.com/blog/machine-learning/gauss-newton-matrix/</h1>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/2d6c437f012147d0bccc2e41ef4c8cda~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=6VHvLDY%2FfdQXeiRy11ON65MfK6c%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">经过链式法则就可证明。这儿的第1项被叫作作 Gauss-Newton 阵，它衡量了因为网络特征的变动贡献的 Hessian 阵值。第二项则是因为输入值的变动贡献的 Hessian 阵值。因为第二项一般很小，因此咱们能够近似认为黑塞阵由 Gauss-Newton 阵决定。经过变形，咱们能够得到 Gauss-Newton 阵的另一种形式，衡量了样本的带权二阶矩。可见 Gauss-Newton 阵与 Fisher information 有着密切的联系。</h1>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/409096b766aa4e45a433836e9891b7c9~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=9f%2FJHLhZcqbxsC7t90GMMIZgpro%3D" style="width: 50%; margin-bottom: 20px;"></div>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/9416415a87624b309d59b352234ddd8f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=WI7X%2BrB7FxS9od7%2B%2BK2aG6VBtzo%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">临界点的数量与性质</h1>
为了更直观的理解，不会介绍太多理论推导。讨论网络优化性质的文案常常观点鲜明，不少文案得出的结论乃至是相互矛盾。从今天的视角往前看，咱们重点介绍日前被广泛接受的观点。但亦要重视，部分结论是在 CNN，MLP，LSTM 上用监督学习进行，对应的是 over-paramterized 网络（参数量远大于数据量）。日前的 LLM 则必定程度是 under-parameterized 网络。
1. 局部最优点的数量随着网络参数的增多而指数级增多，但区别局部最优点的训练损失相差不大
 用单神经元网络说明了局部最优点的数量随着网络参数的增多而指数级增多。LeCun 引领的一系列工作 运用 spin-glass 理学模型阐释了简化的神经网络中差局部最优解随着模型参数增大指数级减小，以及局部最优解周边相当平坦。则证明了多层神经网络中类似的结论。
 中说到，在全连接层中交换任意两个神经元能够得到等价的神经网络。这个性质让随机初始化的网络可能收敛到非常区别的局部最优值。则用过实验发掘，区别的局部最小值之间能够经过平坦的路径相连。 一样支持了这点：任意两个局部极小值之间都能够经过一条不会太”扭曲“的路径相连，这条路径上的损失最多比局部最优处的损失高一点。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/9ef003d946554d46805a9710734d01b4~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=LfHEH6N5APtjt6fEp0lgvRTz4tc%3D" style="width: 50%; margin-bottom: 20px;"></div>
2. 鞍点的数量比上局部最优点的数量随着网络参数的增多而指数级增多
 理论分析了鞍点数量和局部最优点数量的比例随着网络参数的增多而指数级增多，同期鞍点一般被 plateaus 所包裹。则经过理论分析弥补，训练时不会陷入鞍点，然则会减慢速度。同意该看法，并认为训练神经网络的过程能够看作避开鞍点，并经过选取鞍点的一端从而打破“对叫作性”的过程。在鞍点处优化器的选取会影响到最终收敛点的性质。
3. Hessian 的低秩性质
 经过计算 CNN 网络训练时的特征谱，发掘 Hessian 阵特征值谱分布特点：在训练初期，Hessian 特征值以 0 为中心对叫作分布。随着训练进行持续向 0 集中，H 退化严重。训练末期极少量少于 0。接近收敛时 Hessian 特征谱分为两部分，海量接近 0，离群点远离大部分特征值，离群点的数量接近于训练数据中的类别数量（或聚类数量）。即 Hessian 阵此时是低秩的。数据不变的状况下，增大参数仅仅使 Hessian 阵接近 0 的部分更宽；参数不变的状况下，数据量的变化会改变 Hessian 阵特征谱的离群点。参数量越大，批量体积越小，训练结束时 Hessian 阵特征值的负值越多（但总体比例都很小。 弥补，在训练初期 Hessian 阵就会变得基本无负值。
 一样发掘了离群点数量（近似 Hessian 阵的秩）与归类任务中的类别数量关联。近期的一篇工作则说明，CNN 中 Hessian 阵的秩随着参数增多而增大。分析了每层的 Hessian 特征值谱，发掘与全部网络的 Hessian 特征值谱类似。
 则进一步描绘了全部训练过程中的低秩现象：Hessian 最大的几个特征值对应的特征向量张成的子空间尽管会变化，但变化程度不大。训练的梯度会火速的进入到这个子空间中，但在这个子空间中并无什么规律。故全部神经网络的训练似乎是出现在一个低维的子空间上的。
4. Gauss-Newton 阵能够近似 Hessian 阵
 都指出了这一点。实验如图所示。Sophia 等二阶优化器正是利用了这点进行对角黑塞阵的计算。则验证了梯度的二阶矩的大特征值与 Hessian 阵的大特征值近似。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/511aa422d3a248fc9b9e79da658bd405~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=ba354p1B5KbUqfynhhv9zyVDA0g%3D" style="width: 50%; margin-bottom: 20px;"></div>
▲ 区别层以及全部网络 Hessian 阵与 Gauss-Newton 阵特征值分布对比
5. 平坦的收敛点拥有更好的泛化性，大的批量容易收敛到 sharp 的收敛点
 指出 Flat minima 有利于泛化，大批量训练容易收敛到 sharp minima，小批量训练容易收敛到 flat minima。同意这一点，但反对中认为 flat minima 和 sharp minima 被 well 分割开。经过实验证明能够从 sharp minima 平坦的“走”到 flat minima。分析了区别批量体积收敛点的 Hessian 特征谱，发掘了相同的结论。
通常认为平坦的损失空间，既有利于优化算法的梯度下降，得到的收敛点性质亦会更好。故非常多文案从该方向解释网络设计的成功原由。譬如残差链接，BN，更宽的网络（over-paramterized）都有助于让损失空间更平滑。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/d7dc65d6e66e4f159ff0e4aa0e47cf84~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=2%2FEOEpB879IS0ExsaFc88Va7JLQ%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">优化路径性质</h1>
这儿先介绍两篇近期的工作，之后有机会再弥补。
 沿着前人的工作，探讨了初始权重与训练完成后的权重，两者插值得到的一系列权重的性质。能够看到区别初始化的网络权重常常收敛到同一个盆地。虽然与训练路径区别，插值路径亦是单调递减，无凸出的现象。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/5dcaa005badc426ab2a8abd9664bcb13~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=6niZO8EAqK7DS13CQdMNPZSTRHc%3D" style="width: 50%; margin-bottom: 20px;"></div>
 讨论了好的优化路径（经过模型设计如增多 BN 或选取好的优化超参）应该让优化器快速进入到平坦的区域，从而能够运用很强的学习率。本文选取观察即最大的特征值以衡量网络的 sharpness。文案发掘网络初始化办法，Warmup，BatchNorm 等办法都有效的减小了，从而能够运用更高的学习率。作者经过实验发掘，SGD 算法能够稳定收敛的要求是和学习率的乘积应该少于 2。（因为 Hessian 最小的值接近 0，因此掌控 亦能够看做掌控 Hessian 阵的要求数）
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/eeb5d9bab46d4370a4c83c3c64af4b66~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=0Mq%2FEO9L78OXxbiiQN5iQDJKK%2FM%3D" style="width: 50%; margin-bottom: 20px;"></div>
▲ 左：区别学习率下区别办法的表现；右：最大特征值和学习率的变化
 工作则是将优化器每步进行分解。按照局部泰勒展开，作者定义 gradient correlation 和 directional sharpness 两项：
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/9a2eebd4dae24e369ef6951dd5a96cfe~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=hx1QY%2BzBOYUE1Xo9mIOmpAoOdkw%3D" style="width: 50%; margin-bottom: 20px;"></div>
▲ 函数的单次更新的泰勒展开
作者发掘，区别的优化器的 direction sharpness 的表现很不相同。Sharpness 刻画的是一个点局部的平坦程度，而 directional sharpness 则刻画了优化方向上的平坦程度。在语言模型上，作者发掘 SGD 优化器的 direction sharpness 明显高于 Adam 优化器。作者认为这是 Adam 优化器收敛速度快的原由。作者还经过梯度的值裁剪进一步减小 Sharpness 程度，从而加速收敛。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/984420d2702c4a56a2de205a78eeaea0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=TqXC7%2FLSEdLzb1zQppJYEAmcHh4%3D" style="width: 50%; margin-bottom: 20px;"></div>
▲ 区别办法的 directional sharpness 对比
咱们已然晓得收敛点是需要越平坦泛化性越好的。但从这两篇文案中能够看到，咱们期盼优化路径始终能够在平坦的区域探索。以往的文案会认为这些区域可能会引起优化陷入鞍点，但日前看来，优化空间中存在海量这般平坦的空间，优化器应该在这些较为平坦的空间中“大踏步”的进行探索。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/0474e30e540d4063991b64cfab969160~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=zOdg0dXCtt9VpQtKF%2F1xFW0kT40%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Transformer 优化性质</h1>
前面的分析都是比较泛化的，为了更好的设计针对 Transformer 的优化器，咱们还需要分析 Transformer 的特殊性质。例如文案 就指出了 Transformer 训练时的有些困难。一样的，Adam 在 Transformer 上表现明显好于 SGD，亦暗示了 Transformer 的优化性质与 CNN 等网络区别。
Transformer 的分析文案非常多都是对模型设计的分析，倘若有机会，我会单独写一篇文案进行介绍。这儿只介绍一篇近期的工作，以补完本节的完整性。
该工功效海量实验揭示了非常直接但有趣的一个现象：Transformer 架构的激活层非常的稀疏。在 T5-Base 中，仅有 3% 的神经元被激活了（ReLU 输出值非 0）。并且增大模型会使其更加稀疏，以及和数据似乎无关。无论运用视觉还是语言，乃至是随机数据，以及不重复的数据，都有该现象显现。作者简单的讨论了这种现象可能和优化动力学关联。笔者认为这个现象可能会给 Transformer 的优化器设计有些启示。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/645c54a12e6d416099f2f3a9a3c61840~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=1Pc%2BeuLV6Vg%2F0KvxKbQK0wQinB0%3D" style="width: 50%; margin-bottom: 20px;"></div>
▲ 激活值的稀疏性现象
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/6e1a99ba915b4e5f841395bfd0a8fb6d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=QIUnuZrrLMzUPSIrkrKBsa0fO00%3D" style="width: 50%; margin-bottom: 20px;"></div>
参考文献
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/97ee53127a7c487cbde6ae0561060fd3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725628907&x-signature=KSZvz8gekTgBQiDQspdWRvoMApQ%3D" style="width: 50%; margin-bottom: 20px;"></div>
 Exponentially many local minima for single neurons
 The Loss Surfaces of Multilayer Networks Open Problem: The landscape of the loss surfaces of multilayer networks Explorations on High Dimensional Landscapes No bad local minima: Data independent training error guarantees for multilayer neural networks Deep Learning without Poor Local Minima Empirical Analysis of the Hessian of Over-Parametrized Neural Networks Essentially No Barriers in Neural Network Energy Landscape Identifying and attacking the saddle point problem in high-dimensional non-convex optimization Gradient Descent Converges to Minimizers Eigenvalues of the Hessian in Deep Learning: Singularity and Beyond Explaining Landscape Connectivity of Low-cost Solutions for Multilayer Nets Gradient Descent Happens in a Tiny Subspace A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and its Applications to Regularization Hessian based analysis of SGD for Deep Nets: Dynamics and Generalization Measurements of Three-Level Hierarchical Structure in the Outliers in the Spectrum of Deepnet Hessians The Hessian perspective into the Nature of Convolutional Neural Networks On large-batch training for deep learning generalization gap and sharp minima Hessian-based Analysis of Large Batch Training and Robustness to Adversaries A Loss Curvature Perspective on Training Instability in Deep Learning Toward Understanding Why Adam Converges Faster Than SGD for Transformers Understanding the Difficulty of Training Transformers The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes

vixf 发表于 2024-9-25 01:06:46

可以发布外链的网站 http://www.fok120.com/

nqkk58 发表于 2024-10-5 13:59:29

同意、说得对、没错、我也是这么想的等。

b1gc8v 发表于 2024-10-8 20:07:51

论坛外链网http://www.fok120.com/

qzmjef 发表于 2024-10-30 06:29:49

一看到楼主的气势，我就觉得楼主同在社区里灌水。

wrjc1hod 发表于 2024-11-8 17:16:38

软文发布平台 http://www.fok120.com/

wrjc1hod 发表于 2024-11-9 09:38:00

楼主发的这篇帖子，我觉得非常有道理。

4zhvml8 发表于 2024-11-9 15:06:30

论坛是一个舞台，让我们在这里尽情的释放自己。

页: [1]

天涯论坛's Archiver

分享丨大规模神经网络优化：神经网络损失空间“长”什么样？