新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果

大千世界 109 0

  现在,让机械狗自己打滚一个小时,它就能学会走路了!

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第1张图片-大千世界


  步态看着相当有模有样:

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第2张图片-大千世界


  还能扛住大棍子的一通狂怼:

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第3张图片-大千世界


  就算是摔了个四仰八叉,翻个身自己又站起来了:

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第4张图片-大千世界


  如此看来,训机械狗和普通训狗真是要没什么两样了啊。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第5张图片-大千世界


  这就是 UC 伯克利大学带来的最新成果,让机器人直接在实际环境中训练学习,不再依赖于模拟器。

  应用这一方法,研究人员在短时间内训练出了 4 个机器人。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第6张图片-大千世界


  比如开头看到的 1 小时学会走路的机械狗;

  还有 2 个机械臂,在 8-10 小时实战抓取后,表现接近于人类水平;

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第7张图片-大千世界


  以及一个拥有计算机视觉的小机器人,在自己摸索 2 小时后,能丝滑地滚动到指定位置。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第8张图片-大千世界


  该研究由 Pieter Abbeel 等人提出,Pieter Abbeel 是吴恩达的第一位博士生,前不久他刚刚获得 2021 ACM 计算奖(ACM Prize in Computing)。

  目前,该方法的所有软件基础架构已经开源。

  一个叫做“空想家”的算法

  本文方法的 pipeline 大致可分为 4 步:

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第9张图片-大千世界


  第一步,是先把机器人放在真实环境里,收集数据。

  第二步,把这些数据传输到 Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。

  第三步,World Model 会对已有经验进行学习,然后“脑补”出策略。

  第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。

  然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。

  具体来看,这里的核心环节是 World Model。

  World Models 是 2018 年由 DAVID HA 等人提出的一种快速无监督学习方式,获得了 NIPS 2018 的 Oral Presentation。

  它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。

  比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第10张图片-大千世界


  此前,基于 World Model 这种“脑补”的学习方法,谷歌提出了 Dreamer 这种可扩展的强化学习方法。

  这一次提出的方法是在此基础上,叫做 DayDreamer。

  (貌似可以叫做空想家?)

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第11张图片-大千世界


  具体来看,World Model 就是一个智能体模型。

  它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。

  同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。

  最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第12张图片-大千世界


  现在,我们回到本次 UC 伯克利学者提出的方法。

  不难发现,其中 World Model Learning 部分的逻辑就是一个经验积累的过程,Behavior Learning 部分则是一个动作输出的过程。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第13张图片-大千世界


  本篇论文方法的提出,主要解决了机器人训练中两方面的问题:

  效率和准确率。

  一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。

  不过这种方法往往需要非常大量的测试,才能达到很好的效果。

  不仅效率低下,而且训练需要付出的成本也不低。

  后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。

  但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。

  从结果来看,在训练机器狗的过程中,只花 10 分钟时间,机器狗就能适应自己的行为了。

  和 SAC 方法对比来看,效果有明显提升。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第14张图片-大千世界


  在机械臂训练过程中,这一新方法还克服了视觉定位和稀疏奖励的挑战,几小时内的训练成果明显优于其他方法。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第15张图片-大千世界


  研究团队

  值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。

  其中,Pieter Abbeel 是吴恩达的开山大弟子。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第16张图片-大千世界


  他现在是 UC 伯克利工程教授,研究方向为强化学习、人机交互等。

  2005 年,他被评选为 IEEE 院士。

  与此同时,Goldberg 还是一位艺术家,是 UC 伯克利艺术、科技文化研讨会的奠基人。

  此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人为共同一作。

  其中 Philipp Wu 还只是 UC 伯克利一位大四的学生。

  One More Thing

  在观看机械狗训练的视频时,我们发现研究人员使用的 Unitree 机械狗,这个品牌来自中国企业宇树科技,之前登上过春晚的机器小牛,也来自它家。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第17张图片-大千世界


  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第18张图片-大千世界


  而且,最近宇树机器狗集体进行 Go1 测试的视频曝光,还在国外火了一波。

  

新出生的机器狗,打滚 1 小时后自己掌握走路,吴恩达开山大弟子最新成果-第19张图片-大千世界


  论文地址:

  https://danijar.com/project/daydreamer/

  参考链接:

  https://worldmodels.github.io/


标签: 机器狗 AI

抱歉,评论功能暂时关闭!