伦敦大学学院、思科、爱丁堡大学开源EdgeVL！面向边缘设备的自适应视觉-语言大模型

fny5jt9 · 发表于 2024-10-2 23:55:08

点击“计算机视觉life”，选取“星标”

设备人AI干货第1时间送达

论文信息

题目：Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

作者：Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, Chris Xiaoxuan Lu

公司：英国伦敦大学学院MAPS Lab、美国Cisco科研院、英国爱丁堡大学

原文链接：https://arxiv.org/abs/2403.04908v2

源码链接：https://github.com/ramdrop/edgevl

编译：zty@计算机视觉life

关闭

观看更加多

更加多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

内容速览

EdgeVL是首个系统性地处理大型VL模型适应边缘设备的框架，支持在不依赖手动注释的状况下运用多种视觉模态。EdgeVL能够从预训练的VL模型转移视觉语言对齐能力到紧凑的视觉模型，消除了对注释的需要。作者整合了量化感知训练和对比学习损失，这种办法不仅在量化后保持了特征暗示的质量，况且还明显加强了模型在区别视觉模态中的辨别能力。

摘要

随着视觉-语言（Vision-Language, VL）模型技术的快速发展，人们越来越期盼将其安排在边缘设备上。然而，这些模型在处理多样化的视觉模态、缺乏标注数据以及计算资源受限等方面仍面临挑战。本文提出了一种名为EdgeVL的创新框架，经过整合双模态知识蒸馏和量化感知对比学习技术，有效克服了这些困难。EdgeVL框架使得像CLIP这般的大型VL模型能够无需手动标注，就能在资源受限的设备上有效处理RGB和非RGB图像。它不仅能够将视觉语言的对齐能力迁移到更紧凑的模型中，还能在模型量化后维持特征的质量，明显提高了区别视觉模态下的开放词汇归类性能。本科研是首次系统性地将大型VL模型适配到边缘设备上，实现了在多个数据集上准确率最多提高15.4%，模型尺寸减少最多达93倍的成果。关联代码已然开源，位置为 https://github.com/ramdrop/edgevl。

1 引言

近年来，视觉-语言（Vision-Language, VL）模型在能够处理视觉和文本数据的综合推理方面取得了明显发展。例如，大规模的VL模型CLIP，它采用了独立的图像和文本编码器，将图像和文本嵌入到一个一起的特征空间中，使得两种模态之间能够直接进行比较。这些模型经过比较图像嵌入和各样潜在文本嵌入之间的类似度，促进了零样本和开放词汇的视觉识别任务，包含图像归类、语义分割和目的检测。然而，VL模型在边缘设备上的安排面临三大挑战：(i) 对多样化视觉模态的泛化能力，(ii) 野外环境中标签的稀缺性，以及(iii) 设备上的计算资源限制。

首要，边缘设备一般配备有多种传感器，除了标准的RGB相机外，还有深度传感器和红外相机等，这些在边缘设备如现场设备人或智能门铃中，在拥有挑战性的光照要求下进行视觉理解至关重要。尽管如此，大都数大型VL模型的视觉编码器重点针对RGB图像进行了优化，对深度或红外图像等替代输入的适应性尚未得到充分探索。其次，尽管边缘设备能够生成海量图像，但这些图像一般无标签，这在缺少人类指定注释的野外环境中构成为了一个重大阻碍，阻碍了模型在标注数据集上的直接应用。第三，即使能够实现区别视觉模态之间的知识转移，视觉编码器（例如CLIP中运用的ViT）的高计算需要亦使其在计算资源受限的边缘设备上难以实现。

为了克服这些挑战，作者需要一个新的框架，它能够无需人工注释就可将大型模型的VL嵌入能力适应到非RGB图像上，同期最小化计算需要以适应边缘设备的能力。现有文献一般孤立地处理这些问题，要么关注跨模态知识转移，要么关注模型压缩（例如量化、剪枝和蒸馏）。然而，这两个行业之间的相互功效和潜在协同效应尚未得到充分探索，更不消说标签稀缺性的影响。实证结果显示（见表3），简单地将这两个模块结合起来会引起大型VL模型性能显著下降。

表 3: 运用区别量化办法的EdgeVL模型在开放词汇归类准确率上的比较。重点展示了量化感知训练结合对比学习损失对准确率的正面影响。| ©【计算机视觉life】编译

在本工作中，作者提出了EdgeVL，这是一个简化的两周期适应框架，它将知识转移与模型压缩技术无缝集成。首要，EdgeVL利用双模态知识蒸馏过程，运用预训练的视觉编码器做为教师模型，将知识蒸馏到更紧凑的学生模型中。该学生模型旨在处理RGB和非RGB图像，保证与常规大型VL模型中类似的视觉特征与文本暗示的对齐。这一初始周期经过架构优化明显加强了模型效率。随后，为了进一步加强模型在边缘安排中的效率和特征提取的有效性，框架采用了量化感知训练（Quantization-Aware Training, QAT），并结合了一种新颖的对比学习损失。这种繁杂办法最后产生了一个针对边缘设备优化的低比特率视觉编码器模型，在RGB和非RGB图像的开放词汇归类任务中展现出卓越的性能（见图1）。

图 1: 大型视觉-语言模型在区别视觉模态下适应边缘设备的框架示意图。展示了EdgeVL怎样无缝集成双模态知识蒸馏和量化感知对比学习，以实现对资源受限设备的有效适应。| ©【计算机视觉life】编译

作者的重点贡献包含：

EdgeVL是首个系统性地处理大型VL模型适应边缘设备的框架，支持在不依赖手动注释的状况下运用多种视觉模态。作者提出了一种办法，能够从预训练的VL模型转移视觉语言对齐能力到紧凑的视觉模型，消除了对注释的需要。作者整合了量化感知训练和对比学习损失，这种办法不仅在量化后保持了特征暗示的质量，况且还明显加强了模型在区别视觉模态中的辨别能力。作者展示了EdgeVL在多个数据集上的准确率提高，并仔细介绍了其在区别GPU层级上的效率改进。

3 办法论

3.1 开放词汇归类的基本知识

大规模的视觉-语言（VL）模型，例如CLIP，由图像和文本编码器构成，它们在超过4亿对的图像-文本数据上进行训练，以将数据映射到共享特征空间。经过对比训练的方式，CLIP能够优化真实图像-文本对的接近度和虚假对的远离度。这种办法使得CLIP在推理周期能够执行零样本和开放词汇的归类任务，只需评定图像和文本嵌入之间的类似度。然而，CLIP的视觉编码器在非RGB图像的零样本归类任务中表现不良，与RGB图像相比，存在明显的准确度差异。

3.2 问题定义

基于以上背景，作者的目的是将开放词汇归类器适配到装备有多种图像传感器的边缘设备上。假设训练数据集暗示为，其中表率第个RGB图像，而是相应的非RGB图像。例如，移动设备人上的同位摄像头会连续收集这些图像对，作者将运用对图像进行模型适配，且这些图像无标签。假设作者能够拜访一个预训练的大型VL模型的RGB图像编码器。EdgeVL的适配目的是研发一个模态不可知且有效的图像编码器，使得以下视觉特征大致相同：

EdgeVL的全部训练过程不需要人工注释或手动标签。在推理周期，假设测试数据集暗示为，其中是每对图像的类别标签，包括所有可能的开放词汇类别。利用预训练的VL模型的文本编码器和研发的图像编码器，能够将开放词汇类的预测转化为最大特征类似度推断问题：

理想状况下，倘若适配得当，预测类别和将与真实类别高度一致，并且推理效率将得到提高。

图 2: EdgeVL两周期适应框架的总体架构。第1周期为双模态知识蒸馏，第二周期为量化感知对比学习，说明了学生模型怎样从预训练的教师模型中学习并经过量化优化以适应边缘设备。| ©【计算机视觉life】编译

3.3 第1周期：双模态知识蒸馏

EdgeVL的第1周期目的是从预训练的VL模型中将教师图像编码器的图像特征蒸馏到学生图像编码器中，以处理双模态图像。针对像CLIP这般的大型VL模型，尽管其图像编码器对未见数据拥有必定的零样本迁移能力，但在某些状况下可能供给的信息不足或带有噪声。在野外环境中，手动筛选样本成本昂贵，因此呢作者引入了一种自动化的数据筛选机制，利用VL模型内在的图像和文本比较能力来指点特征蒸馏。

自动数据集筛选

作者首要创建一个“标签超集”，利用ChatGPT-4引擎生成。这个标签超集做为一个广泛的潜在标签库，适用于多种情境。接着，运用文本编码器将标签超集编码为文本特征，同期图像编码器处理边缘设备的未标记RGB图像以提取视觉特征。针对RGB图像，作者按照其与标签超集中文本的最大图像-文本类似度赋予一个置信度分数：

一般，带有噪声和信息量少的图像会产生较低的置信度分数，这些图像不适合用于特征蒸馏，因此呢会被排除在进一步处理之外。作者运用预设的阈值来筛选数据集，仅有置信度分数高于该阈值的RGB图像及其同时收集的非RGB对应图像会被保存在训练数据集中。

特征蒸馏

利用筛选后的数据集，作者能够进行特征蒸馏。这一关键过程使紧凑的学生编码器能够经过参考大型教师编码器，有效地从RGB和非RGB图像中提取鲁棒的图像嵌入。作者的办法区别于传统办法，它经过权重共享，使统一的学生编码器能够无缝处理任一图像类型。在图2中展示的，针对训练数据集中的每一对RGB和非RGB图像，作者使由学生模型提取的特征与教师模型从RGB图像中提取的特征对齐。这种对齐基于这般的理解：两种图像类型表率同一场景，因此呢学生模型生成的图像特征需要与预训练的VL模型（如CLIP）的特征保持一致。作者定义学生编码器为，并专注于最小化学生模型特征与教师模型特征之间的差异，经过作者的特征蒸馏损失函数：

在这儿，暗示距离函数，作者遵循运用L1距离函数。经过这个损失函数，作者旨在密切对齐学生的特征暗示与教师模型的特征，保证学生模型在RGB和非RGB模态上的能力。

3.4 第二周期：量化感知对比学习

在成功得到能够处理双模态图像的学生编码器之后，作者需要进一步加强其效率，目的是将其转化为一个量化的低比特率模型，以适应边缘设备的资源限制。这一过程的挑战在于怎样保证量化之后模型仍能保持对特征的表达能力。

QAT与对比学习的结合

作者首要对应用后训练量化（PTQ），以此来观察量化对特征辨别性的影响。如图3所示，量化过程后特征的辨别性明显下降，这引起了文本与图像暗示之间的不一致性。与全精度模型相比，特征清晰度的降低凸显了采用量化感知训练（QAT）对最后图像编码器进行优化的必要性。QAT经过在训练过程中引入假量化节点，模拟量化效应，并经过微调预训练模型来适应这些效应（详见弥补材料中的QAT仔细信息）。在实施QAT时，选取一个合适的损失函数非常关键，它需要能够在量化框架内维持乃至提高特征的辨别能力。传统的知识蒸馏损失，如公式(4)所定义，目的是将学生模型的特征与预训练教师模型的特征对齐。然而，这种办法可能未能充分利用量化模型在实现鲁棒和辨别特征方面的潜能。因此呢，作者提出将对比学习损失集成到量化感知训练中，目的是培养出对量化导致的非辨别性特征拥有鲁棒性的暗示，并加强特征空间中类似和不类似实例之间的分离度。这种基于对比学习的办法，应该能够支持获取对量化失真影响较小的不变暗示。

图 3: 在ScanNet数据集上，特征与文本标签之间方向的分布。展示了后训练量化(PTQ)和量化感知训练(QAT)对特征辨别性的影响，以及对比学习损失在量化后对特征表达能力的提高。| ©【计算机视觉life】编译

三元组采样策略

为了有效学习，选取正面和消极样本至关重要。作者采用了半硬样本策略，这种策略因其加强特征鲁棒性的能力而被认可。详细来讲，针对训练数据集中的每一对样本，作者运用预训练的VL模型生成伪标签如下：

而后，针对每一个训练实例，作者识别出与其对应的潜在正面样本集合和潜在消极样本集合。潜在的正面样本是与共享相同伪标签的样本，而潜在的消极样本则是伪标签区别的样本。作者经过以下方式选取最优匹配的正面样本：

作者随机选取消极样本，并仅保存满足半硬要求的消极样本，即：

d(\Phi_{edge_{img}} (x_i), \Phi_{edge_{img}} (p_{i,k}^*)) " style="text-align: center; overflow: auto;">

其中是预定义的间隔常数。作者定义了精炼后的负样本集的体积为，并定义了损失函数：

4 实验结果

4.1 实现

本节仔细介绍了EdgeVL的实现细节。做为教师模型，作者采用了OpenCLIP供给的CLIP模型，详细是ViT-g-14 (ViT-G)版本。学生模型则基于ViT-S及其先进变体DAT-T和Swin-T构建，并将归类头替换为特征投影头以适应训练需要。

在第1周期训练中，作者运用了AdamW优化器，设置基本学习率为，权重衰减为0.05。作者还采用了余弦退火学习率调度器，它在120个epoch内将学习率逐步降低至。进入第二周期后，作者将基本学习率进一步降至。自动数据筛选中运用的置信度阈值τc，按照训练数据的利用效率和噪声水平，作者经验性地设置为0.25。

针对CLIP文本编码器，作者按照数据集的区别，运用了相应的文本提示，例如“a photo of a {scene category}.”或“a satellite image of a {scene category}.”。量化模型的结果，作者报告的是静态量化的形式。针对三元组损失函数，作者采用了边际值m=0.3和负样本集体积J=3。

4.2 总体结果

本节展示了EdgeVL与其他几种最先进办法在区别数据集上的性能比较。作者专注于准确性和效率两个关键指标，这针对验证作者办法在边缘设备上的有效性和实用性至关重要。

数据集

作者选取了ScanNet和EuroSAT数据集进行评定。ScanNet数据集包括了海量的室内RGB-D图像，经过子采样处理后，作者得到了包括18,900张训练图像、5,300张验证图像和2,100张测试图像的数据集，覆盖21个区别的场景类别。因为测试集未供给标签，作者在验证集上进行了模型评定。EuroSAT数据集包括了27,000张卫星图像，涵盖13个光谱波段和10个类别，作者随机分割为13,500张训练图像和13,500张测试图像。为全面评定作者办法的有效性，作者尤其选取了RGB和短波红外（SWIR）波段进行评定。

基线

因为缺乏直接适用于作者问题设置的基线，作者适配了几种处理类似问题的办法。例如，CMKD最初设计用于从激光雷达到RGB模型的知识转移，作者将其修改为从CLIP视觉编码器中蒸馏知识到RGB和非RGB模型。Fida框架和CQD办法亦被调节为专注于最小化学生模型对之间的特征距离。SKD策略经过其混合技术生成混合模态样本，被作者适配以整合非RGB和RGB图像进行训练。另外，Frank办法和Gupta技术因其在跨模态权重转移和微调方面的关联性而被思虑。

为了展示EdgeVL的优良，作者展示了基线模型在全精度(F32)配置下的最佳结果，并为每种状况选取了产生最高准确度的骨干网络。作者的比较还包含了两个区别版本的CLIP，分别运用ViT-B/G视觉骨干，作者叫作它们为CLIP-B和CLIP-G。

准确性

表1展示了EdgeVL与基线模型在ScanNet和EuroSAT数据集上的准确性对比。结果显示，EdgeVL在两个数据集上都取得了最高的准确性。尤其是，即使是EdgeVL性能最差的变体ViT-S，在ScanNet数据集上亦明显优于其最接近的竞争对手SKD，优良达到了10.2%（34.5%对44.7%）。这一差距在EuroSAT数据集上扩大到了13.9%（49.4%对64.8%）。这些结果突显了EdgeVL在不朋友生编码器架构上的适应性和广泛的适用性。

图 4: 区别模型在ScanNet和EuroSAT数据集上的预测结果对比。可视化展示了EdgeVL在处理RGB和非RGB图像时，在开放词汇场景归类任务上的优越性能。| ©【计算机视觉life】编译

效率

作者在Nvidia的Jetson AGX Orin (32GB)、Jetson Orin Nano (8GB)和RTX4090 GPU上检测了EdgeVL的计算效率。为了模拟实质安排场景，作者运用TensorRT引擎进行所有模型推理。因为DAT-T当前与TensorRT不兼容，作者无包含它在性能分析中。因为CLIP的ViT-G骨干（CLIP-G）与TensorRT不兼容，作者只报告了其模型体积。

4.3 消融科研

量化感知对比学习的影响

为了深入理解区别量化办法对模型性能的影响，作者对比了后训练量化（+PTQ）与量化感知训练（+QAT）的效果。+PTQ办法将模型权重和激活函数转换为8位整数，而+QAT则在模型中引入了假量化层，随后经过微调来优化性能。另外，作者还思虑了一种结合信息修正和分布引导蒸馏的办法（+QViT），以在微调周期提高模型效率。

表3展示了运用区别量化办法对Int8量化模型在开放词汇归类准确率上的影响。作者重点关注静态量化结果，尽管动态量化亦表示出类似的趋势，仔细信息见弥补材料。结果显示，仅运用PTQ会引起准确率明显下降，而结合第1阶段损失（公式4）的QAT虽然能够提高准确率，但仍未达到EdgeVL的水平，有时差距乃至超过9.7%（例如40.3%对比50.0%）。EdgeVL在第二周期引入了对比学习，这不仅缓解了量化可能带来的辨别能力降低的问题，况且在量化之后进一步提高了学生编码器的准确性。

双模态知识蒸馏的影响

作者进一步评定了双模态知识蒸馏在ScanNet和EuroSAT数据集上的效果。表4展示了与CMKD（非RGB）和CMKD（RGB）相比，作者的双模态训练办法在DAT-T模型上取得了更高的准确率。作者的双模态训练办法在ScanNet上的平均准确率加强了15.0%，在EuroSAT上加强了13.1%。尤其是在非RGB模态上，例如深度图像和红外图像，准确率的提高显示RGB图像可能为非RGB图像供给了一种数据加强的效果。

表 4: 双模态知识蒸馏对EdgeVL性能的影响。展示了在ScanNet和EuroSAT数据集上，双模态训练相较于单模态训练在准确率上的提高。| ©【计算机视觉life】编译

τc截断比率的影响

表5展示了τc截断比率对EdgeVL（Swin-T）在EuroSAT数据集上准确率的影响。当τc设置为0.25时，模型准确率达到了最高。τc过小可能引起模型训练不充分，而τc过大则可能引入噪声样本，降低知识转移的有效性。

三元组采样策略的影响

作者评定了区别的三元组采样策略对EdgeVL性能的影响。表6展示了在EuroSAT数据集上，运用半硬采样策略的EdgeVL（DAT-T）模型的准确率高于硬采样策略，这与文献的发掘一致。

两周期训练的影响

EdgeVL采用了两周期训练过程。作者亦探索了单周期训练做为替代方法，即在模型量化过程中运用PTQ代替QAT，以防止模型在训练中崩溃。表7展示了区别训练策略对EdgeVL（DAT-T）在ScanNet数据集上的准确率的影响。结果显示，单周期训练的准确率远小于两周期训练，这可能是由于对比学习需要一个良好组织的特征空间做为起点，况且QAT训练需要较小的学习率以防止模型崩溃，而在作者的知识蒸馏训练中，相对很强的学习率一样有效。

4.4 跨数据集性能

作者进一步评定了EdgeVL在未见过的数据集上的泛化性能，即在ScanNet上训练模型，并在SUNRGBD和NYU2数据集上评定其开放词汇归类准确率。SUNRGBD数据集包括5285个训练和5050个测试RGBD图像，涵盖19个场景类别，由多种RGBD传感器捕捉。NYU2数据集包括795个训练和654个测试RGBD图像，涵盖10个场景类别，由Microsoft Kinect传感器捕捉。表8表示，EdgeVL加强的编码器明显加强了深度图像的准确率（运用DAT-T模型加强了25.4%），但与预训练的CLIP模型的ViT-G编码器相比，RGB图像的准确率略有下降。这是因为量化后模型尺寸大幅减小（例如，Swin-T的56MB对比CLIP-G的5213MB），况且CLIP的训练运用了4亿图像-文本对，而EdgeVL仅运用了ScanNet中的4725对RGB和深度图像。

5 结论

EdgeVL在利用预训练的视觉-语言模型进行跨多种图像模态的开放词汇归类方面取得了明显发展，包含RGB和非RGB图像。尽管EdgeVL采取了创新的办法，但在适应跨模态运用时，它在保持RGB图像的泛化性能方面面临挑战。将来的工作将集中于改进适配技术以克服这一限制，旨在加强框架在更广泛应用中的多功能性和有效性。

举荐教程

SLAM顶会论文怎么发？我对Fast-LIO2做了改进，处理了Z轴漂移、有效检测回环及处理了回环重影、实现了重定位

2025秋招，上来就问3D Gaussian Splatting。。。

香港大学开源的这个激光雷达惯性SLAM，太强了！

一招把握3DGS基本视觉三维重建！深度计算+点云处理+网格重建优化+纹理贴图！

谷歌这个SLAM开源方法，造福了全部设备人行业！

重大变革！NeRF和3D高斯喷溅怎样重塑SLAM？

发顶会顶刊再也不难！多传感器融合SLAM、生成式AI、3DGS、NeRF、标定等方向

这个开源框架，造福了无数卫星定位科研者和初创机构！

BOSS：用了设备人仿真，立省几十万

自动驾驶中的GNSS、RTK到底多重要？

太强了！世界第1款开源的自动驾驶一体化框架Autoware！（附交流群）