燕麦饮料如何改变地球这家公司要重新定义“牛奶”
06-21
图1【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】雷锋网出版社:现实生活中,人类可以轻松适应环境变化,但机器人却有适应性方面表现一般。
如何才能让机器人能够像人类一样快速适应现实世界呢?加州大学伯克利分校人工智能实验室BAIR近日介绍了其研究高环境适应性机器人的最新成果。
以下为雷锋网全文整理。
人类可以无缝地适应环境的变化:成年人可以在几秒钟内学会拄拐杖走路;人们几乎可以立即拿起意想不到的重物;孩子们无需重新学习走路即可发展快速步态。
适应从平地到上坡的过渡。
这种弹性在现实世界中发挥着重要作用。
另一方面,机器人通常被部署为具有固定的行为(编码或学习),这使得它们在特定环境中表现良好,但也导致它们在其他领域表现不佳:系统故障、遇到不熟悉的地形或遇到环境变化环境(例如风)、需要处理有效负载或其他意外变化。
BAIR 最新研究背后的想法是,在现阶段,预测与观察之间的不匹配应该告诉机器人更新其模型,以更准确地描述情况。
例如,当我们意识到我们的汽车在路上打滑时(图 2),这告诉我们我们的行为产生了意想不到的不同影响,因此使我们能够相应地计划后续行动。
。
为了让机器人能够更好地适应现实世界,重要的是让它们利用过去的经验,拥有快速灵活的适应能力。
为此,BAIR开发了一种基于快速模型的自适应元强化学习算法。
图 2 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 对之前工作的快速适应使用了试错适应方法(Cully 等人,)和自由模型元强化学习方法(Wang 等人,;Finn 等人) al., al., ),通过一些训练,让智能体适应。
然而,BAIR 研究人员的工作就是突破适应性的极限。
人类的适应不需要对新环境进行多次体验,这种适应在线发生,只需几个时间步骤(即毫秒),速度太快而无法被注意到。
BAIR 研究人员通过在基于模型的学习环境中采用元学习(如下所述)实现了这种快速适应。
用于更新模型的数据应该在模型内设置,而不是根据推理过程中获得的奖励进行调整,根据最近的经验,这些数据会以每个时间步的模型预测误差的形式发挥作用。
这种基于模型的方法允许机器人仅使用少量的最新数据有意更新其模型。
方法概述图 3 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】BAIR 研究人员的方法遵循图 3 中的通用公式,利用对近期数据的观察来适应模型,类似于自适应控制的整体框架(Sastry 和 Isidori) ,;奥斯特罗姆和维滕马克,)。
然而,真正的挑战是模型在复杂、非线性、高容量的函数逼近器(例如神经网络)时如何成功适应。
为了进行有意义的学习,神经网络需要大量数据,因此对模型权重执行 SGD 是无效的。
因此,通过在(元)训练期间明确针对此适应目标进行训练,可以在测试时实现快速适应,如下一节所述。
元训练是在各种不同设置下对数据进行的。
一旦获得了善于适应的先验模型(权重由 θ* 表示),机器人就可以在每个时间步都基于该 θ(图 3)。
* 为了适应,它将先前的模型与当前的经验相结合,并调整模型以适应当前的情况,从而实现快速在线适应。
元训练:给定任意时间步t,我们处于阶段st,我们在时间at采取措施,根据底层动力学函数st=f(st,at),我们最终会得到st的结果。
对于我们来说,真正的动态是未知的,所以我们想拟合一些学习到的动态模型 s^t=fθ(st,at),通过观察 (st,at,st) 形式的数据点,做出最好的可能预测。
为了执行行为选择,规划者可以利用这个评估的动态模型。
假设在推出期间,任何细节和设置都可以在任何时间步骤发生变化,我们将把暂时接近的时间步骤视为“任务”细节,告诉我们正在做什么:在任何空间状态下运行、持久的干扰、尝试新的目标/因此,为了使模型对规划目的最有用,BAIR 研究人员希望使用最近观察到的数据进行首次更新。
在训练期间(图4),这个求和是选择一个连续的(M + K)个数据点序列,使用第一个M更新模型权重,从θ到θ′,然后优化新的θ′,令它擅长预测接下来 K 个时间步的状态转换。
在利用过去K点的信息调整权重后,这个新制定的损失函数代表了未来K点的预测误差。
[图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 换句话说,θ 不需要带来良好的动态预测。
相反,它需要能够使用来自特定任务的数据点,快速适应新的权重,并依靠这个新的权重来获得良好的动态预测结果。
有关此公式的更多直观信息可以在 MAML 博客文章中找到。
图4 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 模拟实验 BAIR 研究人员在模拟机器人系统上进行了实验,以测试他们的方法适应环境瞬时变化的能力,而在训练环境之外,这种方法是否也可以广义的。
值得注意的是,BAIR 研究人员对所有智能体进行了任务/环境分配的元训练(详细信息请参阅本文),但研究人员在测试过程中评估了它们适应未知和不断变化的环境的能力。
图5中的猎豹机器人在不同随机浮力的浮板上进行训练,然后在水中不同浮力的浮板上进行测试。
这种环境表明不仅需要适应,而且还需要快速/在线适应。
图6是使用不同腿部残疾的蚂蚁机器人进行的实验,这也说明了在线适应的必要性。
然而,在第一次演示时,一条隐形腿半路断了。

在下面的定性结果中,BAIR 研究人员将基于梯度的自适应学习器(“GrBAL”)与在同一任务上训练的基于标准模型的学习器(“MB”)进行了比较。
变化但没有明确的培训适应机制。
图 5 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 图 6 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 这种基于模型的元强化学习方法的快速适应性使得该模拟机器人系统能够执行和/或比较与之前的最佳方法相比,样本效率得到了显着提高。
在相同方法的对照实验中,将在线适应与无在线适应进行比较,将元训练与无元训练进行比较,将动态模型进行比较。
与无动态模型相比,您可以看到系统性能和/或样本效率的改进。
这些定量比较的详细信息可在论文中找到。
硬件实验图7①【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】图7②【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】我们不仅应该强调元强化学习方法的样本效率,还应该强调元强化学习方法的样本效率。
强调,在现实世界中认识到快速在线适应的重要性,BAIR 研究人员在真实的动态腿式微型机器人上演示了这种方法(见图 7)。
这种小型六足机器人以高度随机和动态运动的形式提出了建模和控制挑战。
该机器人是在线适应的绝佳候选者,原因有很多: 构建该机器人使用了快速制造技术和许多定制设计步骤,因此不可能每次都复制相同的动力、连杆和其他步骤 身体部位会随着时间的推移而退化,移动速度非常快,并且随着地形的变化而动态变化。
BAIR 研究人员在各种不同地形上对步行机器人进行了元训练,然后测试了该智能体在线学习适应新任务(跑步时)的能力,包括没有单腿走直线、前所未见的滑行地形和坡度,估计具有修正误差或错误的姿态,并让它第一次拉动有效载荷。
在硬件实验中,BAIR 研究人员将他们的方法与两种方法进行了比较: 1. 标准的基于模型的学习(“MB”)方法,该方法既没有自适应,也没有元学习; 2.具有自适应能力的动态评估模型(‘MB’+“DE”),但其自适应能力源自非元学习先验。
结果(图 8-10)表明,不仅需要适应性,还需要对从显式元学习得出的先验进行适应。
图 8 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 图 9 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 图 10 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 通过在线有效适应,在更少的实验中当腿沿直线行走时,BAIR 的方法可以防止漂移、防止从斜坡上滑落、解决姿态校准错误并调整以拖曳有效负载。
值得注意的是,这些任务/环境和元训练阶段学到的运动行为有足够的共性,从以前的知识中提取信息(而不是从头开始学习)是有用的,但它们有很大不同,需要有效只能在网上适应可以成功。
图 11 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 未来方向 通过使用元学习,这项工作可以实现大容量神经网络动态模型的在线适应。
通过从之前的元学习开始并允许对模型进行本地微调,BAIR 研究人员消除了对准确的全局模型的需求,并且能够快速适应新的场景,例如意外的环境变化。
尽管 BAIR 研究人员已经展示了模拟和硬件对不同任务的适应能力,但仍然有许多相关的改进途径。
首先,虽然这种设置很强大,因为它总是根据预先训练的内容进行微调,但这种方法有一个局限性,即即使您多次查看这个新设置,您仍然会得到类似于第一个设置的内容你看到它的时间。
相同的性能。
在后续工作中,BAIR研究人员将采取措施精确解决这个随着时间的推移而变得更加严重的问题,同时在尝试新技能的同时不会忘记旧技能。
另一个改进领域涉及制定条件或分析适应的性能和局限性:鉴于上述知识,可以适应什么?什么是你不能适应的?例如,两个人正在学骑自行车,谁会突然在路上滑倒呢?假设两个人以前都没有骑过自行车,所以他们不太可能从自行车上摔下来。
在这个实验中,第一个人 A 可能会摔倒,手腕受伤,然后需要几个月的物理治疗。
相比之下,另一个人B可能利用了他以前的武术知识并实施了良好的“跌倒”程序(即,在他的背上滚动以缓冲跌倒而不是试图用他的手腕来削弱跌倒的力量) )。
在这种情况下,当两个人尝试执行一项新任务时,他们先前知识中的其他经历可能会显着影响他们尝试适应的结果。
因此,在现有知识的情况下,建立某种机制来理解适应的局限性将会很有趣。
原论文地址:ICLR已接收)项目主页:BAIR雷锋网版权文章,未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-18
06-17
06-18
06-21
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态