Diffusion Policy 做具身掌控会比 VLM 更有前途吗？-天涯论坛

qzmjef 发表于 2024-7-24 23:00:30

Diffusion Policy 做具身掌控会比 VLM 更有前途吗？

设备之心PRO · 会员通讯 Week 17
---- 本周为您诠释 ③个值得细品的AI & Robotics业内要事 ----
1. Diffusion Policy 做具身掌控会比 VLM 更有前途吗？
大佬用了 Diffusion Policy 亦说好？Diffusion Policy 是什么？扩散模型做具掌控优良在哪？VLM 效果欠好吗？还有谁在用扩散做具身智能？大佬辩论还聊了什么？...
2. 开闭源并非「二元论」，谁开源才是重要
开源模型会越来越落后？区别阵营，有那些观点在博弈？开源和闭源模型的重要差距在哪？开源模型生态靠什么盈利？开闭源到底在争论什么？投资人怎样看？...
3. 黄仁勋在「CadenceLIVE 硅谷 2024」大会上透露了那些重要信息？
黄仁勋为么更看好人形设备人赛道？黄仁勋认为 AI 技术的下一个风口是什么？...
...本期完整版通讯含 3 项专题诠释 + 30项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 10项，国外方面 9 项。
本期通讯总计 26744字，可免费试读至 15%
消耗99微X豆就可兑换完整本期诠释（约合人民币9.9元）
要事诠释 ①Diffusion Policy 做具身掌控会比 VLM 更有前途吗？
日期：4 月 26 日
事件：黄仁勋近期对人形设备人的预测使业界对具身智能的讨论又起始升温。就具身智能行业当前的进展，许多工作聚焦于经过基本模型处理具身感知、导航等任务。但在 CoRL 2023 的一场辩论中，MIT CSAIL 设备人中心专家、丰田科研院副总裁 Russ Tedrake 却反复强调了一种 Diffusion Policy 对具身掌控（manipulation）带来的价值。
Diffusion Policy 是被忽略的具身掌控明珠吗？
1、Coral 2023 大会举办了一场「大模型能带来通用设备人吗？( Will Scaling Solve Robotics?）」主题的辩论会。
① 正方辩手大大都是 Robot Learning 行业的大佬，包括 Sergey Levine、Chelsea Finn。但第三位辩手 Russ Tedrake 的偏向掌控行业，他在开场玩笑性地调侃为何自己会坐在正方。
② 反方辩手大大都是设备人掌控理论和基于模型掌控行业的大佬，包括 Scott Kuindersma、Stefan Schaal、Emo Todorov。
2、Russ Tedrake 多次提及了一项 Diffusion policy 技术对具身掌控的帮忙。
① Tedrake 暗示：基于扩散策略的突破性生成式人工智能办法明显加强了设备人的效用，是构建设备人「大行径模型（LBMs）」迈出的一步，类似于近期彻底改变了对话人工智能的大型语言模型（LLMs）。
3、Diffusion Policy 在处理多模态动作分布、适用于高维动作空间以及展示出色的训练稳定性方面拥有强大的优良。
① 按照 Diffusion Policy 的论文，该办法在在四个区别的设备人操作基准的 12 项任务中表现优于其他 SOTA 办法，平均改进 46.9%。
4、在 Diffusion Policy 关联的视频演示中，机械臂能够实现用稳定的速度完成摊披萨、摆正各样方向的杯子。其最明显的特点是设备人执行操作的路径始终比其他办法更加连贯。
5、丰田科研院（TRI）在 2023 年度颁布了基于 Diffusion Policy 的具身掌控成果，并强调了该技术的优良 ：
① 支持多模态演示，准许人类演示者自然地教授行径，而不必担心破坏设备人的学习。
② 适用于高维动作空间，使设备人能够即时计划并避免不稳定的行径。
③ 稳定靠谱，适合大规模训练设备人。
什么是 Diffusion Policy？
Diffusion Policy 是哥伦比亚大学宋舒然团队和 MIT 教授 Russ Tedrake 带领的丰田设备人科研院一起创作。该论文于 2023 年 3 月上传至 ArXiv，截止 2024 年 3 月已更新了 5 版。
1、在具身智能行业，设备人操作的执行（action）是木桶最短的板，而 Diffusion Policy 的核心价值在于改善了具身掌控面对的多模态分布、时序关联性和训练稳定性的挑战。
① Diffusion Policy 的一作迟宬暗示：这个技术处理的是设备人输出的问题，过往非常多工作都注重在处理输入的问题，但设备人最后要执行，咱们的工作就在于处理设备人动作和输出的问题。
② 迟宬是哥伦比亚大学的计算机科学博士生，在宋舒然教授的指点下做设备人操作和感知关联的科研。
2、Diffusion Policy 能够理解为扩散模型在设备人掌控中的应用，能够结合模仿学习，经过观察人类专家的演示来学习策略。
① Diffusion Policy 是一种设备人行径生成办法（Robot Action Generation），将设备人的视觉动作策略（Visuomotor Policy）暗示为要求去噪扩散过程（Conditional Denoising Diffusion Process）。
② 该办法运用视觉编码器将原始图像数据转换为潜在的观察嵌入，这些嵌入随后用于要求去噪过程。
③ 在每次迭代中，噪声预测网络（εθ）预测当前噪声样本的噪声梯度，而后用于更新样本，逐步去噪。
④ 经过随机 Langevin 动力学过程，Diffusion Policy 迭代地优化动作序列，直到生成最后的动作。
3、为了充分发挥扩散模型在理学设备人视觉运动策略学习中的潜能，该工作还提出了三项重要技术，分别是 receding horizon control，visual conditioning，和 time-series diffusion transformer。
① Receding Horizon Control 是一种优化策略，它用于生成有限时间范围内的动作序列，而非全部任务的动作序列。
② Visual Conditioning 指将视觉观察数据做为要求信息输入至 Diffusion Policy，以此来指点动作的生成，用于加强决策过程，同期减少计算量。
③ Time-Series Diffusion Transformer 专门设计来处理时间序列数据，尤其适应必须高频动作变化和速度掌控的任务。
4、经测试，Diffusion Policy 在所有测试的基准测试中实现 SOTA，平均改进率达到了 46.9%。即使在高维动作空间中，Diffusion Policy 亦能够生成一致和准确的动作序列。
① 实验触及 15 个区别的设备人操作任务，覆盖 4 个区别的设备人操作基准测试
② 实验不仅在模拟环境中进行，亦在真实世界的设备人平台上进行，以验证模型的泛化能力和实用性。
为何 Diffusion Policy 对具身掌控尤其有效？
1、最简单的形式来看，从演示中学习策略能够被表述为学习将观察映射到动作的监督回归任务。但在实践中，预测设备人动作存在多模态分布、时序关联性和训练稳定性的需求。
① 在设备人学习行业，常用的设备人掌控办法有直接回归（regression）、分类预测（classification）和生成式模型，但均存在局限。
2、处理设备人多模态分布方面，Diffusion Policy 的优良在于引入概率分布，准许一个输入对应多个可能的输出，供给了更大的灵活性，能够暗示各样概率分布。
① Multi-Modal 能够概括为现实世界中处理某一特定任务的方式可以有多种，但传统神经网络预测只能给出单一的方式，没法应对可能有多种方式的任务状况。
② 扩散模型本身就暗示概率分布的优秀办法，由此增多的自由度对加强算法稳健性有很大影响。
3、处理动作空间可扩展性问题方面，DIffusion Policy 能够一次性预测多步动作，避免了高维空间中归类办法的高成本，同期解决了连续掌控中的动作一致性问题。
① Action Space Scalability 或 Sequential Correlation 问题能够归纳为设备人对将来动作的预测不该仅限于眼前几步，而应拥有前瞻性，能够预测更远将来的多步动作。
② 传统归类办法一次只能预测一步，将连续值问题转化为归类问题虽然可行，但随着维度的增多，计算成本呈指数级增长。
4、处理训练稳定性方面，相比于其他生成模型（如 GAN），Diffusion Policy 的训练过程非常稳定，不必须精细调节参数就可得到有效的输出。
① 理论上所有的生成模型都能够预测连续的多模态分布，但 GAN 因训练不稳定性必须耗费海量成本进行调参，亦有 VAE 办法亦有自己的局限。
5、Diffusion Policy 的另一项优良在于，做为一种策略规律，它适用于输入图像并输出相应动作的情境，与设备人掌控中常用的强化学习和模仿学习两条路径并不冲突。
① 论文中展示了 Diffusion Policy 结合模仿学习的方式，由人类遥控设备人执行动作，收集数据，并经过学习将其转化为策略。
① 基于强化学习的策略可能为了加速训练采用低纬度的信息做为输入，但这个状态信息在真实环境没法得到，不可直接驱动设备人。科研者对此会把 RL Policy 生成的数据训练成以照片为输入的模仿学习策略，亦便是「蒸馏」。
VLM/LLM 比之 Diffusion Policy 怎样？
1、自 2023 年具身智能迎来热潮，显现了许多基于基本模型的工作，但 LLM 和 VLM 的发展大多在于设备人感知和决策层面，但对具身执行并无很大的影响。
① 以往许多采用 VLM 的办法大多针对设备人策略的视觉理解，或直接训练基于语言和图像的策略，但大多在精确定位阻碍物和物体方面存在局限，引起执行任务时失败。
2、Diffusion Policy 的作者迟宬一样参与了谷歌 RT-X 的工作，但暗示相比之下运用扩散模型进行具身掌控更有优良。
3、在 Meta、东大和谷歌 DeepMind 的科研者在 2024 年 2 月发布综述，讨论了基本模型在真实世界设备人应用中的运用状况。综述将设备人的行径分为感知、规划和掌控三个部分，并讨论了怎样将基本模型应用于这些行业。
表：区别基本模型在真实世界设备人应用中的运用状况
<img src="https://q6.itc.cn/q_70/images03/20240427/ea58d238950847f3a73ffd4c8abf56a1.png" style="width: 50%; margin-bottom: 20px;">
除了 Diffusion Policy，还有什么用扩散办法做设备人掌控的工作吗？ 
1、OpenAI 投资的人形设备人创企 1X 在的设备人一样采用了 Diffusion Policy 来实现设备人掌控。
① 1X 机构于 2024 年 1 月完成为了 1 亿美元的 B 轮融资，同月份展示了其人形设备人 EVE 的倒咖啡能力，以及研发中的新型号 NEO 的简要状况。
② 1X 在 4 月颁布了 youtube 视频，介绍了用于设备人操作任务的 SUSIE 方法，该工作采用 Diffusion Policy 来训练策略。
2、1X 提出的 SuSIE 办法旨在经过结合预训练的图像编辑模型和低级目的要求策略，处理在未结构化环境中的零试操作能力。SUSIE 办法经过子目的生成和完成子目的两个周期来实现。
3、子目的生成环节采用预训练的图像编辑扩散模型（InstructPix2Pix），按照设备人的当前观察和语言指令生成中间「子目的」图像，用于指点下一步动作。
4、完成子目的环节则经过设备人数据上训练的低级目的要求策略执行动作，完成子目的。该策略只需学习视觉-运动关系，没需指令文本输入来帮忙理解任务的语义。
① 该环节运用的低级策略基于 BridgeData V2 设备人数据集训练所得。
② 训练策略运用了 Diffusion Policy 做为算法，其输入为当前状态的图像和上一周期生成的子目的图像；输出则是一系列设备人动作。
③ 由此训练的策略能够精确执行动作以达到特定视觉目的。该策略能够对单个动作进行决策，亦能够在连续的时序过程中维持策略一致性和连贯性。
5、经测试，SuSIE 在 CALVIN 基准测试和真实世界操作任务中实现 SOTA，其零试泛化、任务精度和低级技能执行方面的表现均优于现有技术
除了 Diffusion Policy，大佬在 CORL 辩论会上还聊了什么？
在 CoRL 2023 的辩论环节中，各方大佬围绕「Is scaling enough to deploy general-purpose robots？」的主题，讨论了基本模型和 Scaling Law 在处理设备人问题上是不是可行。正方辩手有 Sergey Levine、Chealse Finn、Russ Tedrake。反方辩手有 Stefan Schaal，Scott Suindersma 和 Emo Todorov。
1、正方认为 Scaling 有效，用大规模的数据集训练大型神经网络能处理设备人的问题。
① Scaling 在计算机视觉（CV）和自然语言处理（NLP）中已然得到成功，在设备人学中亦可能有效。近期的模型如 GPT4-V 和 SAM 展示了在海量数据上训练大型模型能够取得惊人的发展。<a style="color: black;">返回外链论坛：http://www.fok120.com/，查看更加多</a>

责任编辑：网友投稿

星☆雨 发表于 2024-9-8 06:11:36

回顾历史，我们不难发现：无数先辈用鲜血和生命铺就了中华民族复兴的康庄大道。

星☆雨 发表于 2024-9-9 02:15:11

软文发布平台 http://www.fok120.com/

b1gc8v 发表于 2024-9-27 21:21:01

外贸论坛是我们的，责任是我们的，荣誉是我们的，成就是我们的，辉煌是我们的。

b1gc8v 发表于 2024-10-22 18:55:54

哈哈、笑死我了、太搞笑了吧等。

7wu1wm0 发表于 2024-11-6 03:23:56

你的见解真是独到，让我受益匪浅。

页: [1]

天涯论坛's Archiver

Diffusion Policy 做具身掌控会比 VLM 更有前途吗？