现在,让机械狗自己打滚一个小时,它就能学会走路了!
步态看着相当有模有样:
还能扛住大棍子的一通狂怼:
就算是摔了个四仰八叉,翻个身自己又站起来了:
如此看来,训机械狗和普通训狗真是要没什么两样了啊。
这就是 UC 伯克利大学带来的最新成果,让机器人直接在实际环境中训练学习,不再依赖于模拟器。
应用这一方法,研究人员在短时间内训练出了 4 个机器人。
比如开头看到的 1 小时学会走路的机械狗;
还有 2 个机械臂,在 8-10 小时实战抓取后,表现接近于人类水平;
以及一个拥有计算机视觉的小机器人,在自己摸索 2 小时后,能丝滑地滚动到指定位置。
该研究由 Pieter Abbeel 等人提出,Pieter Abbeel 是吴恩达的第一位博士生,前不久他刚刚获得 2021 ACM 计算奖(ACM Prize in Computing)。
目前,该方法的所有软件基础架构已经开源。
一个叫做“空想家”的算法
本文方法的 pipeline 大致可分为 4 步:
第一步,是先把机器人放在真实环境里,收集数据。
第二步,把这些数据传输到 Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。
第三步,World Model 会对已有经验进行学习,然后“脑补”出策略。
第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。
然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。
具体来看,这里的核心环节是 World Model。
World Models 是 2018 年由 DAVID HA 等人提出的一种快速无监督学习方式,获得了 NIPS 2018 的 Oral Presentation。
它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。
比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。
此前,基于 World Model 这种“脑补”的学习方法,谷歌提出了 Dreamer 这种可扩展的强化学习方法。
这一次提出的方法是在此基础上,叫做 DayDreamer。
(貌似可以叫做空想家?)
具体来看,World Model 就是一个智能体模型。
它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。
同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。
最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。
现在,我们回到本次 UC 伯克利学者提出的方法。
不难发现,其中 World Model Learning 部分的逻辑就是一个经验积累的过程,Behavior Learning 部分则是一个动作输出的过程。
本篇论文方法的提出,主要解决了机器人训练中两方面的问题:
效率和准确率。
一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。
不过这种方法往往需要非常大量的测试,才能达到很好的效果。
不仅效率低下,而且训练需要付出的成本也不低。
后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。
但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。
从结果来看,在训练机器狗的过程中,只花 10 分钟时间,机器狗就能适应自己的行为了。
和 SAC 方法对比来看,效果有明显提升。
在机械臂训练过程中,这一新方法还克服了视觉定位和稀疏奖励的挑战,几小时内的训练成果明显优于其他方法。
研究团队
值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。
其中,Pieter Abbeel 是吴恩达的开山大弟子。
他现在是 UC 伯克利工程教授,研究方向为强化学习、人机交互等。
2005 年,他被评选为 IEEE 院士。
与此同时,Goldberg 还是一位艺术家,是 UC 伯克利艺术、科技文化研讨会的奠基人。
此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人为共同一作。
其中 Philipp Wu 还只是 UC 伯克利一位大四的学生。
One More Thing
在观看机械狗训练的视频时,我们发现研究人员使用的 Unitree 机械狗,这个品牌来自中国企业宇树科技,之前登上过春晚的机器小牛,也来自它家。
而且,最近宇树机器狗集体进行 Go1 测试的视频曝光,还在国外火了一波。
论文地址:
https://danijar.com/project/daydreamer/
参考链接:
https://worldmodels.github.io/