Diffusion Policy 做具身掌控会比 VLM 更有前途吗?
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">设备</span>之心PRO · 会员通讯 Week 17</strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">---- 本周为您<span style="color: black;">诠释</span> ③</span><span style="color: black;">个值得细品的AI & Robotics业内要事 ----</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">1. Diffusion Policy 做具身<span style="color: black;">掌控</span>会比 VLM 更有前途吗?</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">大佬用了 Diffusion Policy <span style="color: black;">亦</span>说好?Diffusion Policy 是什么?扩散模型做具<span style="color: black;">掌控</span><span style="color: black;">优良</span>在哪?VLM 效果<span style="color: black;">欠好</span>吗?还有谁在用扩散做具身智能?大佬辩论还聊了什么?...</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">2. 开闭源并非「二元论」,谁开源才是<span style="color: black;">重要</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">开源模型会越来越落后?<span style="color: black;">区别</span>阵营,有<span style="color: black;">那些</span>观点在博弈?开源和闭源模型的<span style="color: black;">重要</span>差距在哪?开源模型生态靠什么盈利?开闭源到底在争论什么?投资人<span style="color: black;">怎样</span>看?...</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">3. 黄仁勋在「CadenceLIVE 硅谷 2024」大会上透露了<span style="color: black;">那些</span><span style="color: black;">重要</span>信息</strong></span><span style="color: black;"><strong style="color: blue;">?</strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">黄仁勋<span style="color: black;">为么</span>更看好人形<span style="color: black;">设备</span>人赛道?黄仁勋认为 AI 技术的下一个风口是什么?...</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">...本期完整版通讯含 3 项专题<span style="color: black;">诠释</span> + 30项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 10项,国外方面 9 项。</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">本期通讯总计 26744字,可免费试读至 15%</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">消耗99<span style="color: black;">微X</span>豆<span style="color: black;">就可</span>兑换完整本期<span style="color: black;">诠释</span>(约合人民币9.9元)</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">要事<span style="color: black;">诠释</span> ①</strong></span><strong style="color: blue;"><span style="color: black;">Diffusion Policy 做具身<span style="color: black;">掌控</span>会比 VLM 更有前途吗?</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">日期:</strong>4 月 26 日</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;">事件:</strong>黄仁勋近期对人形<span style="color: black;">设备</span>人的预测使业界对具身智能的讨论又<span style="color: black;">起始</span>升温。就具身智能<span style="color: black;">行业</span>当前的进展,许多工作聚焦于<span style="color: black;">经过</span><span style="color: black;">基本</span>模型<span style="color: black;">处理</span>具身感知、导航等任务。但在 CoRL 2023 的一场辩论中,MIT CSAIL <span style="color: black;">设备</span>人中心<span style="color: black;">专家</span>、丰田<span style="color: black;">科研</span>院副总裁 Russ Tedrake 却反复强调了一种 Diffusion Policy 对具身<span style="color: black;">掌控</span>(manipulation)带来的价值。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">Diffusion Policy 是被忽略的具身<span style="color: black;">掌控</span>明珠吗?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、Coral 2023 大会举办了一场「大模型能带来通用<span style="color: black;">设备</span>人吗?( Will Scaling Solve Robotics?) 」主题的辩论会。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 正方辩手大<span style="color: black;">大都是</span> Robot Learning <span style="color: black;">行业</span>的大佬,<span style="color: black;">包括</span> Sergey Levine、Chelsea Finn。但第三位辩手 Russ Tedrake 的偏向<span style="color: black;">掌控</span><span style="color: black;">行业</span>,他在开场玩笑性地调侃<span style="color: black;">为何</span>自己会坐在正方。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 反方辩手大<span style="color: black;">大都是</span><span style="color: black;">设备</span>人<span style="color: black;">掌控</span>理论和基于模型<span style="color: black;">掌控</span><span style="color: black;">行业</span>的大佬,<span style="color: black;">包括</span> Scott Kuindersma、Stefan Schaal、Emo Todorov。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2、Russ Tedrake 多次提及了一项 Diffusion policy 技术对具身<span style="color: black;">掌控</span>的<span style="color: black;">帮忙</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Tedrake <span style="color: black;">暗示</span>:基于扩散策略的突破性生成式人工智能<span style="color: black;">办法</span><span style="color: black;">明显</span><span style="color: black;">加强</span>了<span style="color: black;">设备</span>人的效用,是构建<span style="color: black;">设备</span>人「大<span style="color: black;">行径</span>模型(LBMs)」迈出的一步,类似于<span style="color: black;">近期</span>彻底改变了对话人工智能的大型语言模型(LLMs)。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3、Diffusion Policy 在处理多模态动作分布、适用于高维动作空间以及展示出色的训练稳定性方面<span style="color: black;">拥有</span>强大的<span style="color: black;">优良</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① <span style="color: black;">按照</span> Diffusion Policy 的论文,该<span style="color: black;">办法</span>在在四个<span style="color: black;">区别</span>的<span style="color: black;">设备</span>人<span style="color: black;">操作</span>基准的 12 项任务中表现优于其他 SOTA <span style="color: black;">办法</span>,平均改进 46.9%。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">4、在 Diffusion Policy <span style="color: black;">关联</span>的视频演示中,机械臂能够实现用稳定的速度完成摊披萨、摆正<span style="color: black;">各样</span><span style="color: black;">方向</span>的杯子。其最<span style="color: black;">明显</span>的特点是<span style="color: black;">设备</span>人执行操作的路径始终比其他<span style="color: black;">办法</span>更加连贯。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5、丰田<span style="color: black;">科研</span>院(TRI)在 2023 年度<span style="color: black;">颁布</span>了基于 Diffusion Policy 的具身<span style="color: black;">掌控</span>成果,并强调了该技术的<span style="color: black;">优良</span> :</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 支持多模态演示,<span style="color: black;">准许</span>人类演示者自然地教授<span style="color: black;">行径</span>,而不必担心破坏<span style="color: black;">设备</span>人的学习。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 适用于高维动作空间,使<span style="color: black;">设备</span>人能够<span style="color: black;">即时</span>计划并避免不稳定的<span style="color: black;">行径</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">③ 稳定<span style="color: black;">靠谱</span>,适合大规模训练<span style="color: black;">设备</span>人。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">什么是 Diffusion Policy?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Diffusion Policy 是哥伦比亚大学宋舒然团队和 MIT 教授 Russ Tedrake 带领的丰田<span style="color: black;">设备</span>人<span style="color: black;">科研</span>院<span style="color: black;">一起</span>创作。该论文于 2023 年 3 月上传至 ArXiv,截止 2024 年 3 月已更新了 5 版。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、在具身智能<span style="color: black;">行业</span>,<span style="color: black;">设备</span>人操作的执行(action)是木桶最短的板,而 Diffusion Policy 的核心价值在于改善了具身<span style="color: black;">掌控</span>面对的多模态分布、时序<span style="color: black;">关联</span>性和训练稳定性的挑战。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Diffusion Policy 的一作迟宬<span style="color: black;">暗示</span>:这个技术<span style="color: black;">处理</span>的是<span style="color: black;">设备</span>人输出的问题,过往<span style="color: black;">非常多</span>工作都注重在<span style="color: black;">处理</span>输入的问题,但<span style="color: black;">设备</span>人<span style="color: black;">最后</span>要执行,<span style="color: black;">咱们</span>的工作就在于<span style="color: black;">处理</span><span style="color: black;">设备</span>人动作和输出的问题。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 迟宬是哥伦比亚大学的计算机科学博士生,在宋舒然教授的<span style="color: black;">指点</span>下做<span style="color: black;">设备</span>人<span style="color: black;">操作</span>和感知<span style="color: black;">关联</span>的<span style="color: black;">科研</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2、Diffusion Policy <span style="color: black;">能够</span>理解为扩散模型在<span style="color: black;">设备</span>人<span style="color: black;">掌控</span>中的应用,能够结合模仿学习,<span style="color: black;">经过</span>观察人类专家的演示来学习策略。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Diffusion Policy 是一种<span style="color: black;">设备</span>人<span style="color: black;">行径</span>生成<span style="color: black;">办法</span>(Robot Action Generation),将<span style="color: black;">设备</span>人的视觉动作策略(Visuomotor Policy)<span style="color: black;">暗示</span>为<span style="color: black;">要求</span>去噪扩散过程(Conditional Denoising Diffusion Process)。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 该<span style="color: black;">办法</span><span style="color: black;">运用</span>视觉编码器将原始图像数据转换为潜在的观察嵌入,这些嵌入随后用于<span style="color: black;">要求</span>去噪过程。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">③ 在每次迭代中,噪声预测网络(εθ)预测当前噪声样本的噪声梯度,<span style="color: black;">而后</span>用于更新样本,逐步去噪。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">④ <span style="color: black;">经过</span>随机 Langevin 动力学<span style="color: black;">过程</span>,Diffusion Policy 迭代地优化动作序列,直到生成<span style="color: black;">最后</span>的动作。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3、为了充分发挥扩散模型在<span style="color: black;">理学</span><span style="color: black;">设备</span>人视觉运动策略学习中的<span style="color: black;">潜能</span>,该工作还提出了三项<span style="color: black;">重要</span>技术,分别是 receding horizon control,visual conditioning, 和 time-series diffusion transformer。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Receding Horizon Control 是一种优化策略,它用于生成有限时间范围内的动作序列,而非<span style="color: black;">全部</span>任务的动作序列。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② Visual Conditioning 指将视觉观察数据<span style="color: black;">做为</span><span style="color: black;">要求</span>信息输入至 Diffusion Policy,以此来<span style="color: black;">指点</span>动作的生成,用于<span style="color: black;">加强</span>决策过程,<span style="color: black;">同期</span>减少计算量。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">③ Time-Series Diffusion Transformer 专门设计来处理时间序列数据,尤其适应<span style="color: black;">必须</span>高频动作变化和速度<span style="color: black;">掌控</span>的任务。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">4、经测试,Diffusion Policy 在所有测试的基准测试中实现 SOTA,平均改进率达到了 46.9%。即使在高维动作空间中,Diffusion Policy <span style="color: black;">亦</span>能够生成一致和准确的动作序列。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 实验<span style="color: black;">触及</span> 15 个<span style="color: black;">区别</span>的<span style="color: black;">设备</span>人操作任务,覆盖 4 个<span style="color: black;">区别</span>的<span style="color: black;">设备</span>人操作基准测试</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 实验不仅在模拟环境中进行,<span style="color: black;">亦</span>在真实世界的<span style="color: black;">设备</span>人平台上进行,以验证模型的泛化能力和实用性。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;"><span style="color: black;">为何</span> Diffusion Policy 对具身<span style="color: black;">掌控</span><span style="color: black;">尤其</span>有效?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、最简单的形式来看,从演示中学习策略<span style="color: black;">能够</span>被表述为学习将观察映射到动作的监督回归任务。但在实践中,预测<span style="color: black;">设备</span>人动作存在多模态分布、时序<span style="color: black;">关联</span>性和训练稳定性的<span style="color: black;">需求</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 在<span style="color: black;">设备</span>人学习<span style="color: black;">行业</span>,常用的<span style="color: black;">设备</span>人<span style="color: black;">掌控</span><span style="color: black;">办法</span>有直接回归(regression)、分类预测(classification)和生成式模型,但均存在局限。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2、<span style="color: black;">处理</span><span style="color: black;">设备</span>人多模态分布方面,Diffusion Policy 的<span style="color: black;">优良</span>在于引入概率分布,<span style="color: black;">准许</span>一个输入对应多个可能的输出,<span style="color: black;">供给</span>了更大的灵活性,能够<span style="color: black;">暗示</span><span style="color: black;">各样</span>概率分布。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Multi-Modal <span style="color: black;">能够</span>概括为现实世界中<span style="color: black;">处理</span>某一特定任务的方式可以有多种,但传统神经网络预测只能给出单一的方式,<span style="color: black;">没</span>法应对可能有多种方式的任务<span style="color: black;">状况</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 扩散模型本身就<span style="color: black;">暗示</span>概率分布的<span style="color: black;">优秀</span><span style="color: black;">办法</span>,由此<span style="color: black;">增多</span>的自由度对<span style="color: black;">加强</span>算法稳健性有很大影响。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3、<span style="color: black;">处理</span>动作空间可扩展性问题方面,DIffusion Policy 能够一次性预测多步动作,避免了高维空间中<span style="color: black;">归类</span><span style="color: black;">办法</span>的高成本,<span style="color: black;">同期</span>解决了连续<span style="color: black;">掌控</span>中的动作一致性问题。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Action Space Scalability 或 Sequential Correlation 问题<span style="color: black;">能够</span>归纳为<span style="color: black;">设备</span>人对<span style="color: black;">将来</span>动作的预测<span style="color: black;">不该</span>仅限于眼前几步,而应<span style="color: black;">拥有</span>前瞻性,能够预测更远<span style="color: black;">将来</span>的多步动作。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 传统<span style="color: black;">归类</span><span style="color: black;">办法</span>一次只能预测一步,将连续值问题转化为<span style="color: black;">归类</span>问题虽然可行,但随着维度的<span style="color: black;">增多</span>,计算成本呈指数级增长。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">4、<span style="color: black;">处理</span>训练稳定性方面,相比于其他生成模型(如 GAN),Diffusion Policy 的训练过程非常稳定,不<span style="color: black;">必须</span>精细<span style="color: black;">调节</span>参数<span style="color: black;">就可</span><span style="color: black;">得到</span>有效的输出。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 理论上所有的生成模型都<span style="color: black;">能够</span>预测连续的多模态分布,但 GAN 因训练不稳定性<span style="color: black;">必须</span>耗费<span style="color: black;">海量</span>成本进行调参,<span style="color: black;">亦</span>有 VAE <span style="color: black;">办法</span><span style="color: black;">亦</span>有自己的局限。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5、Diffusion Policy 的另一项<span style="color: black;">优良</span>在于,<span style="color: black;">做为</span>一种策略<span style="color: black;">规律</span>,它适用于输入图像并输出相应动作的情境,与<span style="color: black;">设备</span>人<span style="color: black;">掌控</span>中常用的强化学习和模仿学习两条路径并不冲突。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 论文中展示了 Diffusion Policy 结合模仿学习的方式,由人类遥控<span style="color: black;">设备</span>人执行动作,收集数据,并<span style="color: black;">经过</span>学习将其转化为策略。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 基于强化学习的策略可能为了加速训练采用低纬度的信息<span style="color: black;">做为</span>输入,但这个状态信息在真实环境<span style="color: black;">没</span>法<span style="color: black;">得到</span>,<span style="color: black;">不可</span>直接驱动<span style="color: black;">设备</span>人。<span style="color: black;">科研</span>者对此会把 RL Policy 生成的数据训练成以<span style="color: black;">照片</span>为输入的模仿学习策略,<span style="color: black;">亦</span><span style="color: black;">便是</span>「蒸馏」。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">VLM/LLM 比之 Diffusion Policy <span style="color: black;">怎样</span>?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、自 2023 年具身智能迎来热潮,<span style="color: black;">显现</span>了许多基于<span style="color: black;">基本</span>模型的工作,但 LLM 和 VLM 的<span style="color: black;">发展</span>大多在于<span style="color: black;">设备</span>人感知和决策层面,但对具身执行并<span style="color: black;">无</span>很大的影响。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 以往许多采用 VLM 的<span style="color: black;">办法</span>大多针对<span style="color: black;">设备</span>人策略的视觉理解,或直接训练基于语言和图像的策略,但大多在精确定位<span style="color: black;">阻碍</span>物和物体方面存在局限,<span style="color: black;">引起</span>执行任务时失败。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2、Diffusion Policy 的作者迟宬<span style="color: black;">一样</span>参与了谷歌 RT-X 的工作,但<span style="color: black;">暗示</span>相比之下<span style="color: black;">运用</span>扩散模型进行具身<span style="color: black;">掌控</span>更有<span style="color: black;">优良</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3、在 Meta、东大和谷歌 DeepMind 的<span style="color: black;">科研</span>者在 2024 年 2 月<span style="color: black;">发布</span>综述,讨论了<span style="color: black;">基本</span>模型在真实世界<span style="color: black;">设备</span>人应用中的<span style="color: black;">运用</span><span style="color: black;">状况</span>。综述将<span style="color: black;">设备</span>人的<span style="color: black;">行径</span>分为感知、规划和<span style="color: black;">掌控</span>三个部分,并讨论了<span style="color: black;">怎样</span>将<span style="color: black;">基本</span>模型应用于这些<span style="color: black;">行业</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">表:<span style="color: black;">区别</span><span style="color: black;">基本</span>模型在真实世界<span style="color: black;">设备</span>人应用中的<span style="color: black;">运用</span><span style="color: black;">状况</span></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://q6.itc.cn/q_70/images03/20240427/ea58d238950847f3a73ffd4c8abf56a1.png" style="width: 50%; margin-bottom: 20px;"></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">除了 Diffusion Policy,还有什么用扩散<span style="color: black;">办法</span>做<span style="color: black;">设备</span>人<span style="color: black;">掌控</span>的工作吗? </span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、OpenAI 投资的人形<span style="color: black;">设备</span>人创企 1X 在的<span style="color: black;">设备</span>人<span style="color: black;">一样</span>采用了 Diffusion Policy 来实现<span style="color: black;">设备</span>人<span style="color: black;">掌控</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 1X <span style="color: black;">机构</span>于 2024 年 1 月完<span style="color: black;">成为了</span> 1 亿美元的 B 轮融资,同月份展示了其人形<span style="color: black;">设备</span>人 EVE 的倒咖啡能力,以及<span style="color: black;">研发</span>中的新型号 NEO 的简要<span style="color: black;">状况</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 1X 在 4 月<span style="color: black;">颁布</span>了 youtube 视频,介绍了用于<span style="color: black;">设备</span>人操作任务的 SUSIE 方法,该工作采用 Diffusion Policy 来训练策略。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">2、1X 提出的 SuSIE <span style="color: black;">办法</span>旨在<span style="color: black;">经过</span>结合预训练的图像编辑模型和低级<span style="color: black;">目的</span><span style="color: black;">要求</span>策略,<span style="color: black;">处理</span>在未结构化环境中的零试操作能力。SUSIE <span style="color: black;">办法</span><span style="color: black;">经过</span>子<span style="color: black;">目的</span>生成和完成子<span style="color: black;">目的</span>两个<span style="color: black;">周期</span>来实现。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">3、子<span style="color: black;">目的</span>生成环节采用预训练的图像编辑扩散模型(InstructPix2Pix),<span style="color: black;">按照</span><span style="color: black;">设备</span>人的当前观察和语言指令生成中间「子<span style="color: black;">目的</span>」图像,用于<span style="color: black;">指点</span>下一步动作。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">4、完成子<span style="color: black;">目的</span>环节则<span style="color: black;">经过</span><span style="color: black;">设备</span>人数据上训练的低级<span style="color: black;">目的</span><span style="color: black;">要求</span>策略执行动作,完成子<span style="color: black;">目的</span>。该策略只需学习视觉-运动关系,<span style="color: black;">没</span>需指令文本输入来<span style="color: black;">帮忙</span>理解任务的语义。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① 该环节<span style="color: black;">运用</span>的低级策略基于 BridgeData V2 <span style="color: black;">设备</span>人数据集训练所得。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">② 训练策略<span style="color: black;">运用</span>了 Diffusion Policy <span style="color: black;">做为</span>算法,其输入为当前状态的图像和上一<span style="color: black;">周期</span>生成的子<span style="color: black;">目的</span>图像;输出则是一系列<span style="color: black;">设备</span>人动作。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">③ 由此训练的策略能够精确执行动作以达到特定视觉<span style="color: black;">目的</span>。该策略能够对单个动作进行决策,<span style="color: black;">亦</span>能够在连续的时序<span style="color: black;">过程</span>中维持策略一致性和连贯性。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">5、经测试,SuSIE 在 CALVIN 基准测试和真实世界<span style="color: black;">操作</span>任务中实现 SOTA,其零试泛化、任务精度和低级技能执行方面的表现均优于现有技术</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">除了 Diffusion Policy,大佬在 CORL 辩论会上还聊了什么?</span></strong></span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在 CoRL 2023 的辩论环节中,各方大佬围绕「Is scaling enough to deploy general-purpose robots?」的主题,讨论了<span style="color: black;">基本</span>模型和 Scaling Law 在<span style="color: black;">处理</span><span style="color: black;">设备</span>人问题上<span style="color: black;">是不是</span>可行。正方辩手有 Sergey Levine、Chealse Finn、Russ Tedrake。反方辩手有 Stefan Schaal,Scott Suindersma 和 Emo Todorov。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">1、正方认为 Scaling 有效,用大规模的数据集训练大型神经网络能<span style="color: black;">处理</span><span style="color: black;">设备</span>人的问题。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">① Scaling 在计算机视觉(CV)和自然语言处理(NLP)中<span style="color: black;">已然</span><span style="color: black;">得到</span>成功,在<span style="color: black;">设备</span>人学中<span style="color: black;">亦</span>可能有效。<span style="color: black;">近期</span>的模型如 GPT4-V 和 SAM 展示了在<span style="color: black;">海量</span>数据上训练大型模型<span style="color: black;">能够</span>取得惊人的<span style="color: black;">发展</span>。</span><a style="color: black;"><span style="color: black;">返回<span style="color: black;">外链论坛:http://www.fok120.com/</span>,查看<span style="color: black;">更加多</span></span></a></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">责任编辑:网友投稿</span></p>
回顾历史,我们不难发现:无数先辈用鲜血和生命铺就了中华民族复兴的康庄大道。 软文发布平台 http://www.fok120.com/ 外贸论坛是我们的,责任是我们的,荣誉是我们的,成就是我们的,辉煌是我们的。 哈哈、笑死我了、太搞笑了吧等。 你的见解真是独到,让我受益匪浅。
页:
[1]