一阶优化算法启发，北大林宙辰团队提出持有万有逼近性质的神经网络架构的设计办法

4lqedz · 发表于 2024-8-31 10:13:23

以神经网络为基本的深度学习技术已然在许多应用行业取得了有效成果。在实践中，网络架构能够明显影响学习效率，一个好的神经网络架构能够融入问题的先验知识，稳定网络训练，加强计算效率。日前，经典的网络架构设计办法包含人工设计、神经网络架构搜索（NAS）[1]、以及基于优化的网络设计办法 [2]。人工设计的网络架构如 ResNet 等；神经网络架构搜索则经过搜索或强化学习的方式在搜索空间中寻找最佳网络结构；基于优化的设计办法中的一种主流范式是算法展开（algorithm unrolling），该办法一般在有显式目的函数的状况下，从优化算法的方向设计网络结构。

然而，现有经典神经网络架构设计大多忽略了网络的万有逼近性质 —— 这是神经网络具备强大性能的关键原因之一。因此呢，这些设计办法在必定程度上失去了网络的先验性能保证。尽管两层神经网络在宽度趋于无穷的时候就已拥有万有逼近性质 [3]，在实质中，咱们一般只能思虑有限宽的网络结构，而这方面的暗示分析的结果非常有限。实质上，无论是启发性的人工设计，还是黑箱性质的神经网络架构搜索，都很难在网络设计中思虑万有逼近性质。基于优化的神经网络设计虽然相对更具解释性，但其一般需要一个显式的目的函数，这使得设计的网络结构种类有限，限制了其应用范围。怎样系统性地设计拥有万有逼近性质的神经网络架构，仍是一个重要的问题。

为认识决这个问题，北京大学林宙辰教授团队提出了一种易于操作的基于优化算法设计拥有万有逼近性质保证的神经网络架构的办法，其经过将基于梯度的一阶优化算法的梯度项映射为拥有必定性质的神经网络模块，再按照实质应用问题对模块结构进行调节，就能够系统性地设计拥有万有逼近性质的神经网络架构，并且能够与现有大都数基于模块的网络设计的办法无缝结合。论文还经过分析神经网络微分方程（NODE）的逼近性质首次证明了拥有通常跨层连接的神经网络的万有逼近性质，并利用提出的框架设计了 ConvNext、ViT 的变种网络，取得了超越 baseline 的结果。论文被人工智能顶刊 TPAMI 接收。

论文：Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach

论文位置：https://ieeexplore.ieee.org/document/10477580

办法简介

传统的基于优化的神经网络设计办法一般从一个拥有显式暗示的目的函数出发，采用特定的优化算法进行求解，再将优化迭代格式映射为神经网络架构，例如著名的 LISTA-NN 便是利用 LISTA 算法求解 LASSO 问题所得 [4]，这种办法受限于目的函数的显式表达式，可设计得到的网络结构有限。有些科研者尝试经过自定义目的函数，再利用算法展开等办法设计网络结构，但她们亦需要如权重绑定等与实质状况可能不符的假设。

论文提出的易于操作的网络架构设计办法从一阶优化算法的更新格式出发，将梯度或邻近点算法写成如下的更新格式：

其中、暗示第 k 步更新时的（步长）系数，再将梯度项替换为神经网络中的可学习模块 T，就可得到 L 层神经网络的骨架：

整体办法框架见图 1。

图 1 网络设计图示

论文提出的办法能够启发设计 ResNet、DenseNet 等经典网络，并且处理了传统基于优化设计网络架构的办法局限于特定目的函数的问题。

模块选择与架构细节

该办法所设计的网络模块 T 只需求有包括两层网络结构，即，做为其子结构，就可保准所设计的网络拥有万有逼近性质，其中所表达的层的宽度是有限的（即不随逼近精度的加强而增长），全部网络的万有逼近性质不是靠加宽的层来得到的。模块 T 能够是 ResNet 中广泛运用的 pre-activation 块，亦能够是 Transformer 中的重视力 + 前馈层的结构。T 中的激活函数能够是 ReLU、GeLU、Sigmoid 等常用激活函数。还能够按照详细任务在中添加对应的归一化层。另一，时，设计的网络是隐式网络 [5]，能够用不动点迭代的办法逼近隐格式，或采用隐式微分（implicit differentiation）的办法求解梯度进行更新。

经过等价暗示设计更加多网络

该办法不需求同一种算法只能对应一种结构，相反，该办法能够利用优化问题的等价暗示设计更多的网络架构，表现其灵活性。例如，线性化交替方向乘子法一般用于求解约束优化问题：经过令就可得到一种可启发网络的更新迭代格式：

其启发的网络结构可见图 2。

图 2 线性化交替方向乘子法启发的网络结构

启发的网络拥有万有逼近性质

对该办法设计的网络架构，能够证明，在模块满足此前要求以及优化算法（在通常状况下）稳定、收敛的要求下，任意一阶优化算法启发的神经网络在高维连续函数空间拥有万有逼近性质，并给出了逼近速度。论文首次在有限宽度设定下证明了拥有通常跨层连接的神经网络的万有逼近性质（此前科研基本集中在 FCNN 和 ResNet，见表 1），论文主定理可简略叙述如下：

主定理（简略版）：设 A 是一个梯度型一阶优化算法。若算法 A 拥有公式 (1) 中的更新格式，且满足收敛性要求（优化算法的常用步长选择均满足收敛性要求。若在启发网络中均为可学习的，则能够不需要该要求），则由算法启发的神经网络：

在连续（向量值）函数空间以及范数下拥有万有逼近性质，其中可学习模块 T 只要有包括两层形如的结构（σ 能够是常用的激活函数）做为其子结构都能够。

常用的 T 的结构如：

1）卷积网络中，pre-activation 块：BN-ReLU-Conv-BN-ReLU-Conv (z),

2）Transformer 中：Attn (z) + MLP (z+Attn (z)).

主定理的证明利用了 NODE 的万有逼近性质以及线性多步办法的收敛性质，核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步办法对连续的 NODE 的离散化，从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中，论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度，处理了此前论文 [6] 的一个遗留问题。

表 1 此前万有逼近性质的科研基本集中在 FCNN 和 ResNet

实验结果

论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络（叫作为 OptDNN），网络信息见表 2，并在嵌套环分离、函数逼近和图像归类等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline，利用所提出的办法设计了改进的 OptDNN，并在图像归类的问题上进行实验，思虑准确率和 FLOPs 两个指标。

表 2 所设计网络的相关信息

首要，OptDNN 在嵌套环分离和函数逼近两个问题上进行实验，以验证其万有逼近性质。在函数逼近问题中，分别思虑了逼近 parity function 和 Talgarsky function，前者可暗示为二归类问题，后者则是回归问题，这两个问题都是浅层网络难以逼近的问题。OptDNN 在嵌套环分离的实验结果如图 3 所示，在函数逼近的实验结果如图 3 所示，OptDNN 不仅取得了很好的分离 / 逼近结果，况且比做为 baseline 的 ResNet 取得了更大的归类间隔和更小的回归误差，足以验证 OptDNN 的万有逼近性质。

图 3 OptNN 逼近 parity function

图 4 OptNN 逼近 Talgarsky function

而后，OptDNN 分别在宽 - 浅和窄 - 深两种设定下在 CIFAR 数据集上进行了图像归类任务的实验，结果见表 3 与 4。实验均在较强的数据加强设定下进行，能够看出，有些 OptDNN 在相同乃至更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验，亦取得了类似的实验结果。

表 3 OptDNN 在宽 - 浅设定下的实验结果

表 4 OptDNN 在窄 - 深设定下的实验结果

论文进一步选择了此前表现较好的 OptDNN-APG2 网络，进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验，OptDNN-APG2 的网络结构见图 5，实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率，进一步验证了该架构设计办法的靠谱性。

图 5 OptDNN-APG2 的网络结构

表 5 OptDNN-APG2 在 ImageNet 上的性能比较

表 6 OptDNN-APG2 与等宽（isotropic）的 ConvNeXt 和 ViT 的性能比较

最后，论文按照 Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络，并在 CIFAR 数据集上和显式的 ResNet 以及有些常用的隐式网络进行了比较，实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果，亦说明了办法的灵活性。

表 7 隐式网络的性能比较

总结

神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计拥有万有逼近性质保证的神经网络架构的统一框架，拓展了基于优化设计网络架构范式的办法。该办法能够与现有大部分聚焦网络模块的架构设计办法相结合，能够在几乎不增多计算量的状况下设计出有效的模型。在理论方面，论文证明了收敛的优化算法诱导的网路架构在温和要求下即拥有万有逼近性质，并弥合了 NODE 和拥有通常跨层连接网络的暗示能力。该办法还有望与 NAS、 SNN 架构设计等行业结合，以设计更有效的网络架构。

参考文献

[1] B. Baker, O. Gupta, N. Naik, and R. Raskar, “Designing neural network architectures using reinforcement learning,” in International Conference on Learning Representations, 2017.

[2] V. Monga, Y. Li, and Y. C. Eldar, “Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing,” IEEE Signal Processing Magazine, 2021.

[3] K. Hornik, M. Stinchcombe, and H. White, “Multilayer feedforward networks are universal approximators,” Neural Networks, 1989.

[4] K. Gregor and Y. LeCun, “Learning fast approximations of sparse coding,” in International Conference on Machine Learning, 2010.

[5] S. Bai, J. Z. Kolter, and V. Koltun, “Deep equilibrium models,” in Advances in Neural Information Processing Systems, 2019.

[6] Q. Li, T. Lin, and Z. Shen, “Deep learning via dynamical systems: An approximation perspective,” Journal of the European Mathematical Society, 2022.

听听海 · 发表于 2024-9-7 12:21:19

你的见解真是独到，让我受益良多。

情迷布拉格 · 发表于 2024-9-9 17:51:34

大势所趋，用于讽刺一些制作目的就是为了跟风玩梗，博取眼球的作品。

wrjc1hod · 发表于 2024-10-25 09:10:44

你的见解真是独到，让我受益良多。

		自动登录	找回密码
密码			立即注册