首页 > 科技未来 > 内容

强化学习机器人还具有很强的环境适应能力，伯克利AI实验室赋能元训练+在线适应

发布于：2024-06-18 编辑：匿名来源：网络

图1【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】雷锋网出版社：现实生活中，人类可以轻松适应环境变化，但机器人却有适应性方面表现一般。

如何才能让机器人能够像人类一样快速适应现实世界呢？加州大学伯克利分校人工智能实验室BAIR近日介绍了其研究高环境适应性机器人的最新成果。

以下为雷锋网全文整理。

人类可以无缝地适应环境的变化：成年人可以在几秒钟内学会拄拐杖走路；人们几乎可以立即拿起意想不到的重物；孩子们无需重新学习走路即可发展快速步态。

适应从平地到上坡的过渡。

这种弹性在现实世界中发挥着重要作用。

另一方面，机器人通常被部署为具有固定的行为（编码或学习），这使得它们在特定环境中表现良好，但也导致它们在其他领域表现不佳：系统故障、遇到不熟悉的地形或遇到环境变化环境（例如风）、需要处理有效负载或其他意外变化。

BAIR 最新研究背后的想法是，在现阶段，预测与观察之间的不匹配应该告诉机器人更新其模型，以更准确地描述情况。

例如，当我们意识到我们的汽车在路上打滑时（图 2），这告诉我们我们的行为产生了意想不到的不同影响，因此使我们能够相应地计划后续行动。

。

为了让机器人能够更好地适应现实世界，重要的是让它们利用过去的经验，拥有快速灵活的适应能力。

为此，BAIR开发了一种基于快速模型的自适应元强化学习算法。

图 2 [图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 对之前工作的快速适应使用了试错适应方法（Cully 等人，）和自由模型元强化学习方法（Wang 等人，；Finn 等人） al., al., )，通过一些训练，让智能体适应。

然而，BAIR 研究人员的工作就是突破适应性的极限。

人类的适应不需要对新环境进行多次体验，这种适应在线发生，只需几个时间步骤（即毫秒），速度太快而无法被注意到。

BAIR 研究人员通过在基于模型的学习环境中采用元学习（如下所述）实现了这种快速适应。

用于更新模型的数据应该在模型内设置，而不是根据推理过程中获得的奖励进行调整，根据最近的经验，这些数据会以每个时间步的模型预测误差的形式发挥作用。

这种基于模型的方法允许机器人仅使用少量的最新数据有意更新其模型。

方法概述图 3 【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】BAIR 研究人员的方法遵循图 3 中的通用公式，利用对近期数据的观察来适应模型，类似于自适应控制的整体框架（Sastry 和 Isidori），；奥斯特罗姆和维滕马克，）。

然而，真正的挑战是模型在复杂、非线性、高容量的函数逼近器（例如神经网络）时如何成功适应。

为了进行有意义的学习，神经网络需要大量数据，因此对模型权重执行 SGD 是无效的。

因此，通过在（元）训练期间明确针对此适应目标进行训练，可以在测试时实现快速适应，如下一节所述。

元训练是在各种不同设置下对数据进行的。

一旦获得了善于适应的先验模型（权重由 θ* 表示），机器人就可以在每个时间步都基于该 θ（图 3）。

* 为了适应，它将先前的模型与当前的经验相结合，并调整模型以适应当前的情况，从而实现快速在线适应。

元训练：给定任意时间步t，我们处于阶段st，我们在时间at采取措施，根据底层动力学函数st=f(st,at)，我们最终会得到st的结果。

对于我们来说，真正的动态是未知的，所以我们想拟合一些学习到的动态模型 s^t=fθ(st,at)，通过观察 (st,at,st) 形式的数据点，做出最好的可能预测。

为了执行行为选择，规划者可以利用这个评估的动态模型。

假设在推出期间，任何细节和设置都可以在任何时间步骤发生变化，我们将把暂时接近的时间步骤视为“任务”细节，告诉我们正在做什么：在任何空间状态下运行、持久的干扰、尝试新的目标/因此，为了使模型对规划目的最有用，BAIR 研究人员希望使用最近观察到的数据进行首次更新。

在训练期间（图4），这个求和是选择一个连续的（M + K）个数据点序列，使用第一个M更新模型权重，从θ到θ′，然后优化新的θ′，令它擅长预测接下来 K 个时间步的状态转换。

在利用过去K点的信息调整权重后，这个新制定的损失函数代表了未来K点的预测误差。

[图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 换句话说，θ 不需要带来良好的动态预测。

相反，它需要能够使用来自特定任务的数据点，快速适应新的权重，并依靠这个新的权重来获得良好的动态预测结果。

有关此公式的更多直观信息可以在 MAML 博客文章中找到。

图4 【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】模拟实验 BAIR 研究人员在模拟机器人系统上进行了实验，以测试他们的方法适应环境瞬时变化的能力，而在训练环境之外，这种方法是否也可以广义的。

值得注意的是，BAIR 研究人员对所有智能体进行了任务/环境分配的元训练（详细信息请参阅本文），但研究人员在测试过程中评估了它们适应未知和不断变化的环境的能力。

图5中的猎豹机器人在不同随机浮力的浮板上进行训练，然后在水中不同浮力的浮板上进行测试。

这种环境表明不仅需要适应，而且还需要快速/在线适应。

图6是使用不同腿部残疾的蚂蚁机器人进行的实验，这也说明了在线适应的必要性。

然而，在第一次演示时，一条隐形腿半路断了。

强化学习机器人还具有很强的环境适应能力，伯克利AI实验室赋能元训练+在线适应

在下面的定性结果中，BAIR 研究人员将基于梯度的自适应学习器（“GrBAL”）与在同一任务上训练的基于标准模型的学习器（“MB”）进行了比较。

变化但没有明确的培训适应机制。

图 5 [图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 图 6 [图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 这种基于模型的元强化学习方法的快速适应性使得该模拟机器人系统能够执行和/或比较与之前的最佳方法相比，样本效率得到了显着提高。

在相同方法的对照实验中，将在线适应与无在线适应进行比较，将元训练与无元训练进行比较，将动态模型进行比较。

与无动态模型相比，您可以看到系统性能和/或样本效率的改进。

这些定量比较的详细信息可在论文中找到。

硬件实验图7①【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】图7②【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】我们不仅应该强调元强化学习方法的样本效率，还应该强调元强化学习方法的样本效率。

强调，在现实世界中认识到快速在线适应的重要性，BAIR 研究人员在真实的动态腿式微型机器人上演示了这种方法（见图 7）。

这种小型六足机器人以高度随机和动态运动的形式提出了建模和控制挑战。

该机器人是在线适应的绝佳候选者，原因有很多：构建该机器人使用了快速制造技术和许多定制设计步骤，因此不可能每次都复制相同的动力、连杆和其他步骤身体部位会随着时间的推移而退化，移动速度非常快，并且随着地形的变化而动态变化。

BAIR 研究人员在各种不同地形上对步行机器人进行了元训练，然后测试了该智能体在线学习适应新任务（跑步时）的能力，包括没有单腿走直线、前所未见的滑行地形和坡度，估计具有修正误差或错误的姿态，并让它第一次拉动有效载荷。

在硬件实验中，BAIR 研究人员将他们的方法与两种方法进行了比较： 1. 标准的基于模型的学习（“MB”）方法，该方法既没有自适应，也没有元学习； 2.具有自适应能力的动态评估模型（‘MB’+“DE”），但其自适应能力源自非元学习先验。

结果（图 8-10）表明，不仅需要适应性，还需要对从显式元学习得出的先验进行适应。

图 8 【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】图 9 【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR】图 10 【图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 通过在线有效适应，在更少的实验中当腿沿直线行走时，BAIR 的方法可以防止漂移、防止从斜坡上滑落、解决姿态校准错误并调整以拖曳有效负载。

值得注意的是，这些任务/环境和元训练阶段学到的运动行为有足够的共性，从以前的知识中提取信息（而不是从头开始学习）是有用的，但它们有很大不同，需要有效只能在网上适应可以成功。

图 11 [图片来源：BERKELEY BAIR 所有者：BERKELEY BAIR] 未来方向通过使用元学习，这项工作可以实现大容量神经网络动态模型的在线适应。

通过从之前的元学习开始并允许对模型进行本地微调，BAIR 研究人员消除了对准确的全局模型的需求，并且能够快速适应新的场景，例如意外的环境变化。

尽管 BAIR 研究人员已经展示了模拟和硬件对不同任务的适应能力，但仍然有许多相关的改进途径。

首先，虽然这种设置很强大，因为它总是根据预先训练的内容进行微调，但这种方法有一个局限性，即即使您多次查看这个新设置，您仍然会得到类似于第一个设置的内容你看到它的时间。

相同的性能。

在后续工作中，BAIR研究人员将采取措施精确解决这个随着时间的推移而变得更加严重的问题，同时在尝试新技能的同时不会忘记旧技能。

另一个改进领域涉及制定条件或分析适应的性能和局限性：鉴于上述知识，可以适应什么？什么是你不能适应的？例如，两个人正在学骑自行车，谁会突然在路上滑倒呢？假设两个人以前都没有骑过自行车，所以他们不太可能从自行车上摔下来。

在这个实验中，第一个人 A 可能会摔倒，手腕受伤，然后需要几个月的物理治疗。

相比之下，另一个人B可能利用了他以前的武术知识并实施了良好的“跌倒”程序（即，在他的背上滚动以缓冲跌倒而不是试图用他的手腕来削弱跌倒的力量））。

在这种情况下，当两个人尝试执行一项新任务时，他们先前知识中的其他经历可能会显着影响他们尝试适应的结果。

因此，在现有知识的情况下，建立某种机制来理解适应的局限性将会很有趣。

原论文地址：ICLR已接收）项目主页：BAIR雷锋网版权文章，未经授权禁止转载。

详情请参阅转载说明。

站长声明

标签：

上一篇：利美康完成2000万元Pre-A轮融资，华辰集团独家投资

下一篇：家乡嘉宾创始人李燕宁：穿梭于三个生活空间的数字游牧民族

燕麦饮料如何改变地球这家公司要重新定义“牛奶”

一家专门生产燕麦奶的公司已上市。美国东部时间4月19日，瑞典品牌Oatly正式向美国证券交易委员会（SEC）提交招股说明书，申请在纳斯达克公开上市。招股书显示，Oatly的承销商包括摩根士丹利、瑞士信贷、法国巴黎银行、巴克莱银行等多家机构，阵容非常豪华。由于以燕麦奶起

06-21
字节跳动刚刚投资了虚拟女生

，今年首笔虚拟人融资已经出炉。投资界获悉，杭州李未科技有限公司显示股东变更，新增字节跳动关联公司北京量子跃动科技有限公司。今日，该公司正式确认本轮为李未首轮融资，字节跳动独家投资。李未，这个有些陌生的名字，正是虚拟的女生。她是由负责人茹忆创建的，前阿里

06-18
达达集团被纳入MSCI ACWI全球指数

达达集团被纳入MSCI ACWI全球指数 5月份，国际指数编制公司MSCI（摩根士丹利资本国际）公布了该指数5月份季度调整结果。其中，达达集团（纳斯达克股票代码：DADA）已被纳入MSCI ACWI全球指数，该指数将于5月27日收盘后生效。作为全球最具影响力的股票指数，MSCI ACWI全球指

06-17
三叶草生物制药完成2.3亿美元C轮融资，高瓴创投、淡马锡共同领投

投资界（ID：pedaily）2月23日消息，专注于为全球严重疾病开发创新生物疗法和疫苗全球临床阶段生物制药公司三叶草生物制药股份有限公司（以下简称“三叶草生物”）宣布完成2.3亿美元C轮融资并获得超募。本轮融资由高瓴创投、淡马锡联合领投，海松资本、奥博资本跟投，原股东

06-18
地球上最疯狂的独角兽，SpaceX估值8000亿

又一超级独角兽诞生。本周，据美国证券交易所委员文件显示，马斯克运营的SpaceX刚刚完成新一轮17.2亿美元融资，估值高达1亿美元（约合人民币1亿元）。由此，SpaceX成为全球第三大独角兽公司，仅次于字节跳动和蚂蚁集团。 SpaceX无疑是狂人和马斯克创造的又一个传奇。这家他

06-18
【全球财经24小时】2023年8月7日投融资事件汇总及明细

今日全球市场共发生21起投资披露事件，其中境内20起，境外1起。其中，国内先进制造业11例，医疗健康行业3例，体育产业1例，企业服务业1例，地方生活行业2例，医疗健康行业2例。电子商务。，国外体育行业1例。国内事件 1、腿老大获万元天使轮融资腿老大是国民潮流零食品牌

06-17
阿里云创新中心系列白皮书之一的《2022年中国机器人产业图谱及云上发展研究报告》

机器人被誉为“制造业皇冠上的明珠”。其研发、制造和应用是一个国家技术创新和高端制造水平的重要标志。 2000年之前，机器人感知能力较弱，主要通过预设的重复机械动作实现特定场景下的人工替代； 21世纪，随着传感器的大规模应用和多传感器信息融合技术的发展，机器人逐渐

06-17
海康威视：2020年净利润同比增长7.82%，拟每10块海康威视披露年报支付8元

公司全年实现营业总收入3亿元，比上年同期增长10.14%；实现净利润8600万元，较上年同期增长7.82%。公司全年整体毛利率为46.53%，较上年同期上升0.54个百分点。该公司计划报价8元10件。今年一季度，公司实现营业收入8800万元，同比增长48.36%；净利润21.69亿元，同比增长44

06-18
苹果iOS 14.5最强大的更新功能就是它！

都说互联网没有记忆，因为当热点过去后，它们就变成了灰尘。但互联网也有记忆。它记录了你所有的痕迹。只需一行，您就可以找到有关您的一切。这些所谓的“痕迹”就是您的个人数据，可以包括您的浏览习惯、偏好、停留时长、个人移动轨迹、位置信息，甚至身份信息、图片等更

06-21
走过半导体巨头孤独的世纪

在半导体行业的发展过程中，不少企业经历了兼并、收购、重组等变革。因此，一些历史悠久的公司可能不再独立存在，而是成为其他大公司的附属公司。部分。与此同时，新的半导体公司不断涌现，未来可能成为行业领导者。 01 从制表机到世界名厂：“人才”IBM IBM的历史可以追

06-17
一家俄罗斯集团已开始在加里宁格勒建设一座 1.3GW 垂直一体化太阳能发电厂

Unigreen Energy 是俄罗斯 Ream Management 的子公司，该公司持有俄罗斯光伏组件制造商 Hevel Solar 的控股权。 Unigreen Energy 已开始在位于波兰和立陶宛之间的俄罗斯飞地加里宁格勒建设垂直一体化太阳能组件发电厂。 “该发电厂的 n 型硅片产能为 1.3GW，太阳能电池产能为

06-08
小医物联获2000万元战略投资，海尔机构领投

据投资界1月9日消息，新三板公司小医物联公告称，公司拟发行不超过1万股股票价格为16元/股。，筹集不超过1万元。海尔集团旗下青岛海尔科技投资有限公司参与新股认购。　　小蚁物联网表示，本次募集资金将用于：1、产能扩张； 2、产品研发； 3、团队建设； 4. 营销。　　

06-18