首页 > 科技未来 > 内容

强化学习机器人还具有很强的环境适应能力,伯克利AI实验室赋能元训练+在线适应

发布于:2024-06-18 编辑:匿名 来源:网络

图1【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】雷锋网出版社:现实生活中,人类可以轻松适应环境变化,但机器人却有适应性方面表现一般。

如何才能让机器人能够像人类一样快速适应现实世界呢?加州大学伯克利分校人工智能实验室BAIR近日介绍了其研究高环境适应性机器人的最新成果。

以下为雷锋网全文整理。

人类可以无缝地适应环境的变化:成年人可以在几秒钟内学会拄拐杖走路;人们几乎可以立即拿起意想不到的重物;孩子们无需重新学习走路即可发展快速步态。

适应从平地到上坡的过渡。

这种弹性在现实世界中发挥着重要作用。

另一方面,机器人通常被部署为具有固定的行为(编码或学习),这使得它们在特定环境中表现良好,但也导致它们在其他领域表现不佳:系统故障、遇到不熟悉的地形或遇到环境变化环境(例如风)、需要处理有效负载或其他意外变化。

BAIR 最新研究背后的想法是,在现阶段,预测与观察之间的不匹配应该告诉机器人更新其模型,以更准确地描述情况。

例如,当我们意识到我们的汽车在路上打滑时(图 2),这告诉我们我们的行为产生了意想不到的不同影响,因此使我们能够相应地计划后续行动。

为了让机器人能够更好地适应现实世界,重要的是让它们利用过去的经验,拥有快速灵活的适应能力。

为此,BAIR开发了一种基于快速模型的自适应元强化学习算法。

图 2 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 对之前工作的快速适应使用了试错适应方法(Cully 等人,)和自由模型元强化学习方法(Wang 等人,;Finn 等人) al., al., ),通过一些训练,让智能体适应。

然而,BAIR 研究人员的工作就是突破适应性的极限。

人类的适应不需要对新环境进行多次体验,这种适应在线发生,只需几个时间步骤(即毫秒),速度太快而无法被注意到。

BAIR 研究人员通过在基于模型的学习环境中采用元学习(如下所述)实现了这种快速适应。

用于更新模型的数据应该在模型内设置,而不是根据推理过程中获得的奖励进行调整,根据最近的经验,这些数据会以每个时间步的模型预测误差的形式发挥作用。

这种基于模型的方法允许机器人仅使用少量的最新数据有意更新其模型。

方法概述图 3 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】BAIR 研究人员的方法遵循图 3 中的通用公式,利用对近期数据的观察来适应模型,类似于自适应控制的整体框架(Sastry 和 Isidori) ,;奥斯特罗姆和维滕马克,)。

然而,真正的挑战是模型在复杂、非线性、高容量的函数逼近器(例如神经网络)时如何成功适应。

为了进行有意义的学习,神经网络需要大量数据,因此对模型权重执行 SGD 是无效的。

因此,通过在(元)训练期间明确针对此适应目标进行训练,可以在测试时实现快速适应,如下一节所述。

元训练是在各种不同设置下对数据进行的。

一旦获得了善于适应的先验模型(权重由 θ* 表示),机器人就可以在每个时间步都基于该 θ(图 3)。

* 为了适应,它将先前的模型与当前的经验相结合,并调整模型以适应当前的情况,从而实现快速在线适应。

元训练:给定任意时间步t,我们处于阶段st,我们在时间at采取措施,根据底层动力学函数st=f(st,at),我们最终会得到st的结果。

对于我们来说,真正的动态是未知的,所以我们想拟合一些学习到的动态模型 s^t=fθ(st,at),通过观察 (st,at,st) 形式的数据点,做出最好的可能预测。

为了执行行为选择,规划者可以利用这个评估的动态模型。

假设在推出期间,任何细节和设置都可以在任何时间步骤发生变化,我们将把暂时接近的时间步骤视为“任务”细节,告诉我们正在做什么:在任何空间状态下运行、持久的干扰、尝试新的目标/因此,为了使模型对规划目的最有用,BAIR 研究人员希望使用最近观察到的数据进行首次更新。

在训练期间(图4),这个求和是选择一个连续的(M + K)个数据点序列,使用第一个M更新模型权重,从θ到θ′,然后优化新的θ′,令它擅长预测接下来 K 个时间步的状态转换。

在利用过去K点的信息调整权重后,这个新制定的损失函数代表了未来K点的预测误差。

[图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 换句话说,θ 不需要带来良好的动态预测。

相反,它需要能够使用来自特定任务的数据点,快速适应新的权重,并依靠这个新的权重来获得良好的动态预测结果。

有关此公式的更多直观信息可以在 MAML 博客文章中找到。

图4 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 模拟实验 BAIR 研究人员在模拟机器人系统上进行了实验,以测试他们的方法适应环境瞬时变化的能力,而在训练环境之外,这种方法是否也可以广义的。

值得注意的是,BAIR 研究人员对所有智能体进行了任务/环境分配的元训练(详细信息请参阅本文),但研究人员在测试过程中评估了它们适应未知和不断变化的环境的能力。

图5中的猎豹机器人在不同随机浮力的浮板上进行训练,然后在水中不同浮力的浮板上进行测试。

这种环境表明不仅需要适应,而且还需要快速/在线适应。

图6是使用不同腿部残疾的蚂蚁机器人进行的实验,这也说明了在线适应的必要性。

然而,在第一次演示时,一条隐形腿半路断了。

强化学习机器人还具有很强的环境适应能力,伯克利AI实验室赋能元训练+在线适应

在下面的定性结果中,BAIR 研究人员将基于梯度的自适应学习器(“GrBAL”)与在同一任务上训练的基于标准模型的学习器(“MB”)进行了比较。

变化但没有明确的培训适应机制。

图 5 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 图 6 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 这种基于模型的元强化学习方法的快速适应性使得该模拟机器人系统能够执行和/或比较与之前的最佳方法相比,样本效率得到了显着提高。

在相同方法的对照实验中,将在线适应与无在线适应进行比较,将元训练与无元训练进行比较,将动态模型进行比较。

与无动态模型相比,您可以看到系统性能和/或样本效率的改进。

这些定量比较的详细信息可在论文中找到。

硬件实验图7①【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】图7②【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】我们不仅应该强调元强化学习方法的样本效率,还应该强调元强化学习方法的样本效率。

强调,在现实世界中认识到快速在线适应的重要性,BAIR 研究人员在真实的动态腿式微型机器人上演示了这种方法(见图 7)。

这种小型六足机器人以高度随机和动态运动的形式提出了建模和控制挑战。

该机器人是在线适应的绝佳候选者,原因有很多: 构建该机器人使用了快速制造技术和许多定制设计步骤,因此不可能每次都复制相同的动力、连杆和其他步骤 身体部位会随着时间的推移而退化,移动速度非常快,并且随着地形的变化而动态变化。

BAIR 研究人员在各种不同地形上对步行机器人进行了元训练,然后测试了该智能体在线学习适应新任务(跑步时)的能力,包括没有单腿走直线、前所未见的滑行地形和坡度,估计具有修正误差或错误的姿态,并让它第一次拉动有效载荷。

在硬件实验中,BAIR 研究人员将他们的方法与两种方法进行了比较: 1. 标准的基于模型的学习(“MB”)方法,该方法既没有自适应,也没有元学习; 2.具有自适应能力的动态评估模型(‘MB’+“DE”),但其自适应能力源自非元学习先验。

结果(图 8-10)表明,不仅需要适应性,还需要对从显式元学习得出的先验进行适应。

图 8 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 图 9 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR】 图 10 【图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 通过在线有效适应,在更少的实验中当腿沿直线行走时,BAIR 的方法可以防止漂移、防止从斜坡上滑落、解决姿态校准错误并调整以拖曳有效负载。

值得注意的是,这些任务/环境和元训练阶段学到的运动行为有足够的共性,从以前的知识中提取信息(而不是从头开始学习)是有用的,但它们有很大不同,需要有效只能在网上适应可以成功。

图 11 [图片来源:BERKELEY BAIR 所有者:BERKELEY BAIR] 未来方向 通过使用元学习,这项工作可以实现大容量神经网络动态模型的在线适应。

通过从之前的元学习开始并允许对模型进行本地微调,BAIR 研究人员消除了对准确的全局模型的需求,并且能够快速适应新的场景,例如意外的环境变化。

尽管 BAIR 研究人员已经展示了模拟和硬件对不同任务的适应能力,但仍然有许多相关的改进途径。

首先,虽然这种设置很强大,因为它总是根据预先训练的内容进行微调,但这种方法有一个局限性,即即使您多次查看这个新设置,您仍然会得到类似于第一个设置的内容你看到它的时间。

相同的性能。

在后续工作中,BAIR研究人员将采取措施精确解决这个随着时间的推移而变得更加严重的问题,同时在尝试新技能的同时不会忘记旧技能。

另一个改进领域涉及制定条件或分析适应的性能和局限性:鉴于上述知识,可以适应什么?什么是你不能适应的?例如,两个人正在学骑自行车,谁会突然在路上滑倒呢?假设两个人以前都没有骑过自行车,所以他们不太可能从自行车上摔下来。

在这个实验中,第一个人 A 可能会摔倒,手腕受伤,然后需要几个月的物理治疗。

相比之下,另一个人B可能利用了他以前的武术知识并实施了良好的“跌倒”程序(即,在他的背上滚动以缓冲跌倒而不是试图用他的手腕来削弱跌倒的力量) )。

在这种情况下,当两个人尝试执行一项新任务时,他们先前知识中的其他经历可能会显着影响他们尝试适应的结果。

因此,在现有知识的情况下,建立某种机制来理解适应的局限性将会很有趣。

原论文地址:ICLR已接收)项目主页:BAIR雷锋网版权文章,未经授权禁止转载。

详情请参阅转载说明。

强化学习机器人还具有很强的环境适应能力,伯克利AI实验室赋能元训练+在线适应

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 投资界新闻 -真视界拟出资6000万元参与设立军民融合产业投资基金

    投资界新闻 -真视界拟出资6000万元参与设立军民融合产业投资基金

    投资界消息(ID:pedaily),真视界1月8日晚间公告称,公司计划参与设立军民融合产业投资基金——湖南湘江正和股权投资合伙企业(有限合伙)(简称“湘江正和”),基金规模3亿元,其中公司出资1万元元。   公告显示,香江正和经营期限为5年,其中投资期为3年,退出期为2年

    06-18

  • 关于公开选聘三门峡国兴产业投资基金子基金管理人的公告

    关于公开选聘三门峡国兴产业投资基金子基金管理人的公告

    4月22日投资界消息,为贯彻落实三门峡市委、市政府决策部署,根据根据《三门峡市政府投资基金管理办法》相关要求,根据三门峡国兴产业投资基金年度投资计划,拟设立三门峡经济开发区智能制造产业发展子基金和三门峡高新技术创新投资子基金。 为充分调动社会资源积极性,吸引

    06-18

  • 朗视仪器拟登陆创业板,致力于高端医疗器械研发及产业化

    朗视仪器拟登陆创业板,致力于高端医疗器械研发及产业化

    北京朗视仪器股份有限公司(以下简称“朗视仪器”)拟于创业板IPO宝石。 据公司官网介绍,朗维仪器自2001年成立以来,一直致力于高端医疗器械的研发和产业化。

    06-17

  • 希迪智驾驶已完成C轮融资,主攻商用车自动驾驶和车路协同

    希迪智驾驶已完成C轮融资,主攻商用车自动驾驶和车路协同

    据投资界(ID:pedaily)5月6日消息,近日,商用车智能领先企业希迪智驾驶驱动,已完成3亿元C轮融资。 以成都科创投资集团为首,华兴资产紧随其后,瑞石基金、千岛基金等老股东继续跟投。 普通嘉是一家专注于商用车自动驾驶、C-V2X车路协同核心技术研发、产品开发及实施的国

    06-18

  • 【创业24小时】2024年1月22日

    【创业24小时】2024年1月22日

    2024年1月22日,行业各大公司向拼多多喊话。 京东的采购和销售能否让京东降价?点击查看百度和微博打造的“卧龙凤雏”,其实功能各有不同。 点击查看为什么所有葡萄酒之旅都值得在快手再次体验?点击查看2019年,腾讯字节“碾压”了AI营销三大趋势。 点击查看已在中国败北多年

    06-18

  • 支付宝发布全新智能汽车和电脑产品“支付宝副驾”,让汽车和电脑接入大型AI模型

    支付宝发布全新智能汽车和电脑产品“支付宝副驾”,让汽车和电脑接入大型AI模型

    近日,支付宝正式推出全新智能汽车和电脑产品“支付宝副驾”(“ACD”) ”简称)。 该产品是蚂蚁百灵大模型在车载场景的首次应用,可以利用AI技术自主理解语义,识别并执行用户意图,完成交易闭环。 第一阶段将为车主提供生活、旅行、健康三大类信息和服务。 同时,领航还集

    06-17

  • 耀明数据完成5000万元A轮融资,北京国管顺基金与君盛投资共同投资

    耀明数据完成5000万元A轮融资,北京国管顺基金与君盛投资共同投资

    投资圈(ID:pedaily)9月9日消息,智能数据管理工具箱平台提供商恩核数据完成1万元A轮融资由顺熙基金与北京市国资委旗下君盛投资共同投资,甲子光年独家投资。 本轮融资将用于核心产品的持续研发、营销团队的扩充、交付体系的扩展和完善,持续提升公司在数据治理行业的优势。

    06-18

  • 联芯资本、礼来亚洲基金持续加大投资,药明药业完成C2轮融资

    联芯资本、礼来亚洲基金持续加大投资,药明药业完成C2轮融资

    投资界(ID:pedaily)9月21日消息,创新药物研发公司药明药业(杭州) )股份有限公司(以下简称“药明药业”)今日正式宣布完成C2轮融资。 本轮融资由盛世投资、海邦投资、好脉母基金管理的绍兴滨海新区生物医药产业股权投资基金共同参与。 老股东联信资本、礼来亚洲基金持

    06-17

  • 海南:加强金融科技创新应用

    海南:加强金融科技创新应用

    上头条近日,中国人民银行、银保监会、证监会、外汇局发《关于金融支持海南全面深化改革开放的意见》。 指出要在合法合规、风险可控的前提下加强金融科技创新应用。 支持海南自由贸易港在金融管理部门协调下开展金融科技创新业务试点,稳步推进科技与金融业务深度融合。 以下

    06-18

  • 隆启科技完成1亿美元B轮融资

    隆启科技完成1亿美元B轮融资

    3月11日消息,据悉,上海隆启科技有限公司已完成1亿B轮融资,由深圳市创新投资集团(简称:深圳前海万融宏图投资基金(简称“万融宏图”)领投,广元资本、达尔威产业投资、金泰富资本、天际资本、精准资本等跟投。 本轮融资后,龙旗科技将加强5G等新兴技术储备,加快AIoT等智

    06-17

  • 【24小时创业-本地生活】2024年5月14日

    【24小时创业-本地生活】2024年5月14日

    2024年5月14日热门大事件 1、美妆品牌转向线下渠道,寻求新的增长机会。 随着线上流量红利的减少,美妆品牌开始将目光转向线下渠道,寻求新的增长点。 2019年,美妆品牌战略调整的重点是“开店”、“战略调整”和“体验与服务”。 珀莱雅、汉舒、贝泰妮等品牌通过线下渠道实现

    06-17

  • 微商代购配送平台“爱酷”完成1亿元A轮融资,钟鼎创投领投

    微商代购配送平台“爱酷”完成1亿元A轮融资,钟鼎创投领投

    据投资界1月15日消息,服装库存配送应用爱酷近日完成1亿元融资元A轮融资。 本轮融资由钟鼎创投领投。   爱酷于2018年9月22日正式上线,是一个微商代购配送平台。 平台由品牌提供货源,代购微商提供“客服、销售、售后、发货”等众包服务。 经销商家直接将产品信息转发至平

    06-18