↑ 点击蓝字 关注极市平台作者丨白鹡鸰源自丨夕小瑶的卖萌屋编辑丨极市平台
极市导读
本文介绍了Google一篇最新的工作,Google对网络本身进行了进一步的探索,试图经过跟踪模型学习表征的过程,确认ViT和ResNet在处理图像的原理上是不是一致。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
前言
计算机视觉、设备学习,这两个词会让你想到什么?
相信绝大都数人第1反应都是CNN,而连续关注这些行业发展的人,则会进一步联想到近几年大火的Transformer,它不仅在自然语言关联任务上表现优秀,在图像行业一样取得了相当不错的效果。去年10月份Google推出的Vision Transformer (ViT),就在图像识别任务上用更高的学习效率,达到了不亚于ResNet的精度。当一个模型性能达到SOTA之后,很自然地,人们就会想去探究它的原理,并和先前的模型进行比较。今年上半年,普林斯顿大学就从错误一致性的方向比较了ViT与ResNet,最后发掘ViT更易错判形状类似的物体,而ResNet的识别更依赖纹理信息 [1]。近期,Google则对网络本身进行了进一步的探索,试图经过跟踪模型学习表征的过程,确认ViT和ResNet在处理图像的原理上是不是一致。
论文链接:http://arxiv.org/abs/2108.08810
办法
ResNet与ViT回顾
在起始科研区别之前,咱们先快速回顾一下ResNet和ViT分别是谁,长什么样。
首要是 ResNet,深度残差网络,2015年ImageNet挑战赛冠军。经过如下图所示的残差块实现网络层上的跳跃,从而将模型的优化目的从寻找函数的等价映射改为了逼近零,弱化了网络变深对模型性能的消极影响。日前为止,基于ImageNet数据集训练的ResNet50仍然是图像处理任务中运用频率最高的预训练模型之一。
ResNet核心部件——残差块ResNet结构而 ViT 则是从NLP行业红的发紫的Transformer改编而来。编码-解码的结构,中间加一个多头重视力机制。ViT重点的改变便是在输入端,将图像进行了分块和降维,从而将图像变成一种类似于词语编码的表达方式,方便了后续处理。经过了这一小步的改动,ViT在JFT-300M(ImageNet的300倍放大版,3亿张图像)上预训练的模型成功超越了ResNet152 [2]。 ViT结构超越ResNet虽然有难度,但亦算不上大资讯。ViT能导致讨论热度的重点原由是它跨界了,不仅制霸NLP,如今还可能给CV翻篇。这般的可能性自然是让人坐不住了,倘若存在一个办法能做为区别模态区别类型任务的通解,那AI大一统时代说不定亦就不远了。那样,在这一美好愿望成真之前,更需要小心地检验:Transformer 处理图像时获取的特征是不是和之前主流的 CNN 有所区别?
倘若它们虽然处理数据办法有所差异,但决定输出的特征是高度类似的,则寓意着日前CV的模型已然接近了人类判断图像时所基于的依据
而倘若模型中决定性的特征有所区别,则能够进一步科研哪一种特征对信息的表征效果更好,或两类模型还能相互借鉴,从而得到新一轮的性能提高。
比较办法——CKA
基于这般的动机,Google用Centered Kernel Alignment (CKA)对ResNet和ViT的有些关键层进行了检验。首要认识一下CKA这种办法。CKA是Google在2019年提出的,用于衡量神经网络中层与层之间类似度的指标 [3]。假设想要检测的两层网络分别有和个神经元,取个样本经过模型,则分别能够获取 和 的表征矩阵。基于点积的类似性,首要能够得到
此处下标F表率Frobenius范数。按照上式,能够推导出
而后按照Hilbert-Schmidt Independence Criterion (HSIC)[3]的表达式,将 中的列经过核函数对应到 上,使得 ,能够得到HISC的经验估计值
此处 是中心矩阵,即 。归一化之后即为CKA指标
这个指标的优良在于,它能够确定基于区别随机初始化和区别宽度训练的神经网络的隐匿层之间的对应关系。因此呢,适合用于寻找ResNet和ViT中是不是存在有对应的网络层。
关键结论
利用CKA,科研者发掘ResNet和ViT在最接近输入的网络底层(lower layer)时,表征的内容持有很强的类似度;然而,因为两个网络处理表征的方式有很大区别,在层层传递之后,在接近输出的网络上层(higher layer)两者的表征最后区别很大。 在网络的底层,ViT和ResNet还有很强的类似度两个在底层表征上有类似之处的网络,居然长着长着发展到了两个方向。由于ResNet在处理输入时,需要经过更加多层才可得到类似于ViT底层的表征,由此诱发了一个恰当的猜想:两个网络在整合全局信息的能力上存在差异。
为了验证这个想法,科研者先是对ViT的区别层中,重视力集中区域的距离进行的计算,她们发掘,ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是引起两个网络中表征的差异逐层增多的一大关键原因。 ResNet的有效感受域有一个知道地从局部“生长”到全局的过程,而ViT只是在感知局部和全局信息的权重上出现调节
另一方面,这种差异的原由还可能来自ViT从底层到高层的类似度比ResNet高的这一现象。科研者认为,是ViT中的跳跃连接结构 (skip connection)守护了底层到高层的表征传递,如下图所示,倘若撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。
因为以上在处理信息过程上的差异,最后,ViT的高层表征能够更精细地保存局部空间信息。尤其是到了最后归类的关键时刻,ResNet还进行了一次全局的平均池化,进一步明显地减少了高层中局部信息的精细度。 ViT的高层保存的局部空间信息更加多
经过全方位的比较,包含将隐匿层揪出来细细观察。最后,科研者下定结论:虽然它们在性能上平起平坐,但以ResNet为表率的CNN与ViT在处理信息的工艺原理上大相径庭。
最后的话
其实文案的结论无尤其出人意料的地区,毕竟ResNet和ViT的模型结构摆在那里,前期对两个网络分别的原理分析论文亦不少了,Google这次的工作其实是把大众直觉性经验性的结论用可复现的实验规范地落在了纸上,并且奋斗夸夸ViT,好吸引更加多科研者采用。导致白鹡鸰重视的是,在全部验证过程中,ViT模型是Google的,JFT-300M数据集是Google的,CKA度量指标亦是Google的,这一整套完整的测评走下来,再一次让人不得不感叹Google的研究实力果然引领潮流。
不仅如此,论文的写作亦确实又一次展现了业内标杆的风度,做为一篇原理解释型的文案,它无将一大坨公式怼到读者脸上,而是经过一系列的自问自答,恰当引导读者思路历程,清晰地说明了实验的动机和每一个过程的道理,并用图像佐证观点。这简直是泥石流中的一股清流,让近期饱受各类奇葩论文的白鹡鸰流下了感动的泪水,并觉得特别有写作上的借鉴价值。
参考文献
[1] Are Convolutional Neural Networks or Transformers more like human vision? https://arxiv.org/abs/2105.07197
[2] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929
[3] Similarity of Neural Network Representations Revisited https://arxiv.org/abs/1905.00414
本文亮点总结 1.ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是引起两个网络中表征的差异逐层增加的一大关键原因。2.科研者认为,是ViT中的跳跃连接结构 (skip connection)守护了底层到高层的表征传递,倘若撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。
倘若觉得有用,就请分享到朋友圈吧! △点击卡片关注极市平台,获取最新CV干货
公众号后台回复“CVPR21检测”获取CVPR2021目的检测论文下载~ 极市干货深度学习环境搭建:怎样配置一台深度学习工作站?实操教程:OpenVINO2021.4+YOLOX目的检测模型测试安排|为何你的显卡利用率总是0%?算法技巧(trick):图像归类算法优化技巧|21个深度学习调参的实用技巧
# CV技术社群邀请函 # △长按添加极市小助手添加极市小助手微X(ID : cvmart4)
备注:姓名-学校/机构-科研方向-城市(如:小极-北大-目的检测-深圳)
就可申请加入极市目的检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像加强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需要对接、求职内推、算法竞赛、干货新闻汇总、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉研发者互动交流~ 觉得有用麻烦给个在看啦~
|