校友约稿|神经网络模型的有效训练与推理
<img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVqxqWOnzqUyUL3wkhU54XleUs0gJUeqnOBIZsWcyeEWtGWthtf4icZUPhdV2icicdTPjcMAHKj4SnibxA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">神经网络模型的<span style="color: black;">有效</span>训练与推理</strong></p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1ylUtZp39g0VPkfLyOoyRULbJIUBFDU8eGLdbk4CBcGnXKQFz2OxYqmg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><img src="https://mmbiz.qpic.cn/mmbiz_svg/eTBFF2uBxbA8CflBlzr54KMJpdhwC1hyiaiaWH4MsnHAn9ZcXBPsFibZVib63bOYqlCCru56QXpJAQcEWE1RrmFdFhRAqMpOou64/640?wx_fmt=svg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">引言</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">随着深度学习技术的发展,神经网络模型性能<span style="color: black;">持续</span>取得新突破。然而,模型的性能增长基于<span style="color: black;">更加多</span>的训练数据和更大的模型尺寸,<span style="color: black;">引起</span>现代神经网络模型的训练与推理开销<span style="color: black;">持续</span><span style="color: black;">增多</span>。<span style="color: black;">怎样</span>在<span style="color: black;">保准</span>性能的前提下减小模型尺寸,降低模型训练时的数据<span style="color: black;">需要</span>,是实现<span style="color: black;">有效</span>模型训练与推理,推动基于神经网络模型的应用更广泛<span style="color: black;">安排</span>的<span style="color: black;">基本</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本组针对以上问题,进行了以下两个方面的工作:<strong style="color: blue;"><span style="color: black;">第1</span>,针对模型参数量大的问题,提出了适用于任意架构的知识蒸馏<span style="color: black;">办法</span>实现模型压缩;第二,针对训练数据<span style="color: black;">需要</span>高的问题,提出了针对自回归视觉大模型的数据<span style="color: black;">有效</span>训练<span style="color: black;">办法</span>。</strong></p><img src="https://mmbiz.qpic.cn/mmbiz_svg/eTBFF2uBxbA8CflBlzr54KMJpdhwC1hyiaiaWH4MsnHAn9ZcXBPsFibZVib63bOYqlCCru56QXpJAQcEWE1RrmFdFhRAqMpOou64/640?wx_fmt=svg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">工作一:异构模型的知识蒸馏<span style="color: black;">办法</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">自知识蒸馏<span style="color: black;">办法</span>(Knowledge Distillation, KD)在2014年被首次提出<span style="color: black;">败兴</span>,已被证明是一种<span style="color: black;">经过</span>师生训练<span style="color: black;">方法</span>(Teacher-Student Training Scheme)<span style="color: black;">加强</span>模型性能的<span style="color: black;">有效</span><span style="color: black;">办法</span>,<span style="color: black;">并被广泛应用于模型压缩<span style="color: black;">行业</span></span>。在更强大教师模型辅助监督信息的<span style="color: black;">帮忙</span>下,学生模型<span style="color: black;">常常</span>能够实现比直接训练更高的精度。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">然而,现有的知识蒸馏相关<span style="color: black;">科研</span>只<span style="color: black;">思虑</span>了同架构模型的蒸馏<span style="color: black;">办法</span>,而忽略了教师模型与学生模型异构的情形。例如,最先进的MLP模型在ImageNet上仅能达到83%的精度,<span style="color: black;">没法</span>获取精度更高的同架构教师模型以<span style="color: black;">运用</span>知识蒸馏<span style="color: black;">办法</span>进一步<span style="color: black;">加强</span>MLP模型的精度。<span style="color: black;">因此呢</span>,对异构模型知识蒸馏的<span style="color: black;">科研</span><span style="color: black;">拥有</span><span style="color: black;">实质</span>应用<span style="color: black;">道理</span>。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本工作分析了针对异构模型(CNN,ViT,MLP)特征的差异性,指出特征中模型架构<span style="color: black;">关联</span>的信息会阻碍知识蒸馏的过程。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">基于此观察,本工作提出了名为OFAKD异构模型知识蒸馏<span style="color: black;">办法</span>:</strong>该<span style="color: black;">办法</span>将特征映射到架构无关的统一空间进行异构模型蒸馏,并<span style="color: black;">运用</span>一种能够自适应<span style="color: black;">加强</span><span style="color: black;">目的</span>类别信息的损失函数。在CIFAR-100和ImageNet数据集上,该<span style="color: black;">办法</span>实现了对现有同架构知识蒸馏<span style="color: black;">办法</span>的超越。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1yPUDIPhOxwuiciaxTaIicHicMNVHIrK1r9sruDSJsMPdYQ8A95Tcg8r2erw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图1. 异构模型学习到的特征对比</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">相比于仅<span style="color: black;">运用</span>logits的蒸馏<span style="color: black;">办法</span>,同步<span style="color: black;">运用</span>模型中间层特征进行蒸馏的<span style="color: black;">办法</span><span style="color: black;">一般</span>能取得更好的性能。然而在异构模型的<span style="color: black;">状况</span>下,<span style="color: black;">因为</span><span style="color: black;">区别</span>架构模型对特征的<span style="color: black;">区别</span>学习偏好,它们的中间层特征<span style="color: black;">常常</span><span style="color: black;">拥有</span><span style="color: black;">很强</span>的差异,直接将针对同架构模型<span style="color: black;">触及</span>的蒸馏<span style="color: black;">办法</span>迁移到异构模型会<span style="color: black;">引起</span>性能下降。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1yV2QXzz85Jzr5RtquVUZpHoV9UxQMJcMWw60ItNhCRibGwqfAvDDXF6A/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图2. 异构模型的知识蒸馏<span style="color: black;">办法</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了在异构模型蒸馏过程中利用中间层特征,需要排除特征中模型架构<span style="color: black;">关联</span>信息的干扰,仅<span style="color: black;">保存</span>任务<span style="color: black;">关联</span>信息。基于此,<span style="color: black;">科研</span>者们提出<span style="color: black;">经过</span>将学生模型的中间层特征映射到logits空间,实现对模型架构<span style="color: black;">关联</span>信息的过滤。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">另外</span>,<span style="color: black;">经过</span>在原始基于KL散度(<span style="color: black;">Kullback-Leibler Divergence)</span>的蒸馏损失函数中引入一项额外的调节系数,修正后的损失函数能够实现对<span style="color: black;">目的</span>类别信息的自适应<span style="color: black;">加强</span>,进一步减缓异构模型蒸馏时无关信息的干扰。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1y6H24nGCpPUKd4b1auBLNHunpS5kukfJuuwTCibHLiadI6Ukzia9zO3NoA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图3. 在ImageNet上的异构模型蒸馏结果</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">关联</span>论文:</strong>Zhiwei Hao, Jianyuan Guo, Kai Han, Yehui Tang, Han Hu, Yunhe Wang, and Chang Xu. "One-for-all: Bridge the gap between heterogeneous architectures in knowledge distillation." Advances in Neural Information Processing Systems 2023.</p><img src="https://mmbiz.qpic.cn/mmbiz_svg/eTBFF2uBxbA8CflBlzr54KMJpdhwC1hyiaiaWH4MsnHAn9ZcXBPsFibZVib63bOYqlCCru56QXpJAQcEWE1RrmFdFhRAqMpOou64/640?wx_fmt=svg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">工作二:数据<span style="color: black;">有效</span>的自回归视觉模型训练</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">本文提出了一种<span style="color: black;">仅在</span>序列化的视觉数据上训练,不<span style="color: black;">运用</span>文本数据,且数据<span style="color: black;">有效</span>的大视觉模型,属于大视觉模型的行列。这类模型的特点是训练好之后,无需微调,<span style="color: black;">就可</span>迁移到多种<span style="color: black;">区别</span>的下游任务上面。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">当前的<span style="color: black;">表率</span>性工作<span style="color: black;">便是</span>大视觉模型(Large Visual Model, LVM)。LVM 依赖<span style="color: black;">很强</span>的模型尺寸(<span style="color: black;">一般</span> 3B 以上),以及<span style="color: black;">很强</span>的训练数据(约 400B tokens)。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">本文提出数据<span style="color: black;">有效</span>的大视觉模型 (Data Efficient Large Visual Model, DeLVM),是一种数据<span style="color: black;">有效</span>的自回归的视觉模型。</strong>DeLVM 相比于 LVM 的特点是<span style="color: black;">明显</span>减少了对模型尺寸和所需的训练数据的<span style="color: black;">需要</span>,从而为通用视觉模型进一步减少了阻碍。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1yrtYNXy2n6NtB6Rvibvorc89qqY5s6kQBhysmhoribaFCgPqTzADibByZA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图4. <span style="color: black;">运用</span>数据<span style="color: black;">加强</span>扩充数据与引入新数据效果相当</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在计算机视觉<span style="color: black;">行业</span>丰富的任务格式为视觉<span style="color: black;">行业</span>通用模型的设计带来了巨大挑战。<span style="color: black;">区别</span>任务的数据集尺寸存在不平衡现象:<span style="color: black;">有些</span>任务的数据量<span style="color: black;">很强</span>,而另<span style="color: black;">有些</span>任务的数据量则不足。当<span style="color: black;">区别</span>任务的数据分布不均匀时,模型的整体性能会大大受损。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">针对此问题,本工作<span style="color: black;">科研</span>了针对 LVM 的数据<span style="color: black;">加强</span>策略,尤其是在跨<span style="color: black;">区别</span>任务的长尾分布场景。证明了与 Re-Sampling 相比,简单的数据<span style="color: black;">加强</span>就能取得可观的效果。</p><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1ynjZm1PY1lT3saoKFT4fiaztsicg0PT0hNicm47qtUQibl09ohyORmeiblOA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">图5. 知识蒸馏促进小尺寸模型性能<span style="color: black;">提高</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">针对自回归视觉模型参数量庞大的问题,本工作<span style="color: black;">运用</span>知识蒸馏<span style="color: black;">办法</span>设计更小的 LVM,使得验证集损<span style="color: black;">眼瞎</span>显降低,困惑度降低,精度<span style="color: black;">提高</span>。这说明知识蒸馏能够<span style="color: black;">提高</span>尺寸较小的自回归 LVM 模型的性能,弥合其与大模型之间的差距。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">关联</span>论文:</strong>Zhiwei Hao, Jianyuan Guo, Chengcheng Wang, Yehui Tang, Han Wu, Han Hu, Kai Han, and Chang Xu. "Data-efficient Large Vision Models through Sequential Autoregression." International Conference on Machine Learning 2024.</p><img src="https://mmbiz.qpic.cn/mmbiz_svg/eTBFF2uBxbA8CflBlzr54KMJpdhwC1hyiaiaWH4MsnHAn9ZcXBPsFibZVib63bOYqlCCru56QXpJAQcEWE1RrmFdFhRAqMpOou64/640?wx_fmt=svg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">总结</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">针对神经网络模型训练与推理过程设计相应的加速<span style="color: black;">办法</span>,降低模型对海量训练数据的依赖,<span style="color: black;">提高</span>模型推理效率,能够<span style="color: black;">明显</span>降低深度学习技术的应用门槛,推动<span style="color: black;">关联</span>技术的更广泛应用。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">导师介绍</strong></p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/jgaIK5GqjVoTlGg5xNgzDwSJj5QJ9w1ymibBdMibib2XX8p6dtBPJAOM5jHqvsLQ8L8JZNzB8wiaZHcrbwNFqvicaSw/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">导师介绍</strong>:胡晗,北京理工大学信息与电子学院教授,“社会治理智联网技术”工业和信息化部重点实验室副<span style="color: black;">专家</span>。入选中组部高层次人才计划青年项目。2007年和2012年分别于中国科学技术大学<span style="color: black;">得到</span>学士和博士学位,2012-2018年在新加坡国立大学和南洋理工大学从事博士后<span style="color: black;">科研</span>。<span style="color: black;">重点</span>从事边缘智能、空天网络等方向的<span style="color: black;">科研</span>,主持国家重点<span style="color: black;">开发</span>计划、基金委联合基金重点项目等多个国家级项目,在IEEE/ACM期刊和CCF-A类会议<span style="color: black;">发布</span>论文100余篇。(曾)担任IEEE TMM、IEEE Networking Letters、Ad Hoc Networks等多个期刊的编委,<span style="color: black;">得到</span>IEEE TMM 2023、IEEE TCSVT 2019、IEEE MM 2015最佳论文奖,多次<span style="color: black;">得到</span>国际会议最佳论文奖。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">供稿:胡晗</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">编辑:施晓鑫</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">审核:易静</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/mmbiz_png/jgaIK5GqjVqxqWOnzqUyUL3wkhU54XleUs0gJUeqnOBIZsWcyeEWtGWthtf4icZUPhdV2icicdTPjcMAHKj4SnibxA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>
你的话语如春风拂面,温暖了我的心房,真的很感谢。 这夸赞甜到心里,让我感觉温暖无比。 一看到楼主的气势,我就觉得楼主同在社区里灌水。 论坛是一个舞台,让我们在这里尽情的释放自己。
页:
[1]