在充满挑战的环境中,一些人工智能系统通过利用过去经验提供的世界表征来实现其目标。
研究人员将这些应用程序推广到新的情况,使他们能够在以前从未遇到过的环境中完成任务。
事实证明,强化学习(一种利用奖励来推动软件策略实现目标的训练技术)特别适合学习总结智能体经验的世界模型,进而促进新行为的学习。
雷锋网消息,近日,来自谷歌、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一项名为《梦想控制:通过潜意识的学习行为》的新研究。
他们开发了一种增强学习代理 Dreamer,它将世界模型内化。
并通过潜在的“想象力”提前计划来选择行动。
他们说,Dreamer 不仅适用于任何学习目标,而且在数据效率、计算时间和最终性能方面优于现有方法。
在其整个生命周期中,无论是交错的还是并行的,Dreamer 都会学习潜在的动力学模型来预测行动和观察的回报。
在这种情况下,“潜在动态模型”是指从图像输入中学习并执行计划以收集新经验的模型。
“潜在”意味着它依赖于隐藏状态或潜在状态的紧凑序列,这使得它能够学习更抽象的表示,例如物体的位置和速度。
使用编码器组件,来自输入图像的信息被有效地集成到隐藏状态中,然后及时前向投影以预测图像和奖励。
上图:梦想家完成摆动钟摆的任务。
中间显示 45 个预测步骤。
Dreamer 使用多部分潜在动力学模型。
该模型的结构有些复杂。
“表示”位对观察结果和动作进行编码,而“转换”位则在不了解导致观察结果的条件的情况下预测状态。
第三个组件(奖励组件)根据给定的模型状态来预测奖励,而行为模型则实现学习的策略并旨在预测解决想象环境的行为。
最终,价值模型评估行动模型所实现的预期想象奖励,而观察模型则提供反馈信号。
上图:梦想家在迷宫中穿行。
中间显示 45 步预测。
雷锋网获悉,在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite(一款用于评估机器学习驱动智能体的模拟软件)中的20个视觉控制任务上的有效性。
他们首先使用 Nvidia V 图形芯片和 10 个处理器核心对其进行训练,每次训练运行一次。
他们说,每个环境步骤在控制套件上花费了 9 个小时。
(相比之下,Google 的 Dreamer 前身 PlaNet 需要 17 个小时才能达到类似的性能。
)上图:Dreamer 玩 Atari 游戏(拳击)。
中间显示 45 步预测。

研究人员报告说,Dreamer 有效地利用了世界的学习模型,从少量经验中进行概括,并且它的成功表明,通过潜在想象力进行学习的行为可以胜过顶级方法。
他们还表示,即使在短期计划中,Dreamer 的价值模型也表现良好,在 20 项任务中有 16 项优于其他模型(四项并列)。
研究人员写道:“未来关于表征学习的研究可能会将想象力的潜力扩展到视觉复杂性更高的环境中。
”他们计划本周在温哥华的 NeurIPS 上展示他们的工作。
Dreamer 项目的代码可在 GitHub 上公开获取。
站长声明
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件
举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
-
以劳力士、百达翡丽为代表的高端品牌在二手市场日益“失宠”,引发二手表商和杠杆炒家叫苦不迭。 来自上海的制表师商奢和小主制表师创始人沈正奇向时代财经透露,“我们年底回收的一只爱彼橡树系列5的价格高达1万元。 今年7月,以1万元的价格出售。 他直接损失了1万元。 “这
06-17
-
才流行不到两周的共享床位因存在“安全隐患”这两天就“封城”了。 新闻话题。 据报道,北京、上海、成都等城市出现了长约2米、宽约1米、形似太空舱的“共享床”,并因火灾隐患相继被关闭。 真相是什么? 猎云网进行了现场调查,并致电拥有“共享床”的公司北京睡眠科
06-18
-
相关消息:中芯国际成熟工艺设备供货许可证获批。 中芯国际宣布,公司已完成2020年3月16日至2020年3月的批量采购协议,2日12个月期间与ASML集团签署采购订单,用于采购ASML产品,订单总金额1 美元,,,.中芯国际目前提供0.35微米至14纳米不同技术节点的晶圆代工和技术服务。 其
06-06
-
8.中资企业在澳大利亚开展投资合作应注意的问题及对策 8.1 对澳大利亚投资合作的主要风险 合作面临以下风险: (一)疫情 目前,澳大利亚新冠肺炎(COVID-19)疫情依然严峻。 截至今年7月,澳大利亚仍未完成接近覆盖全体人口的疫苗接种。 澳大利亚于 2018 年 12 月 1 日开放边
06-18
-
又一位汽车公司老板濒临破产:1995年出生的孙女匆忙交出大权。 在重庆首富造车的梦想破灭了。 8月27日晚间,力帆股份发布半年报。 上半年,力帆不仅亏损26亿元,净资产降幅也扩大至96.12%,只剩下1亿元。 第二天开盘,力帆的股价就跌停。 这家成立20多年的老牌国产车企濒临破
06-18
-
投资界(ID:pedaily)9月13日消息,为深入贯彻落实石家庄市第十一次党代会精神石家庄市按照市两会精神,充分发挥政府产业基金促投资、扩投资、稳增长的关键作用,推动新一代电子信息两大产业发展生物医药率先取得突破。 石家庄市将设立石家庄市主导产业发展基金(以下简称“
06-18
-
投资界消息(ID:pedaily),上海医药与上海医药集团将联合设立上海生物医药产业基金,规模达1亿第一期1亿多元,最终规模1亿左右。 据财联社报道,上海医药董事长周军表示,产业基金不是简单的投资基金,而是一个平台。 “两家公司未来将打造几个大平台,推动上海医药生物
06-17
-
为什么低价卖? 出奇。 一家市值1亿美元的公司最近被以5亿美元的低价出售。 其股东包括但不限于阿里巴巴、京东、腾讯。 它就是Farfetch,一家成立于2008年的英国奢侈品电商平台,2009年在纽约证券交易所上市。 这次的买家是韩国公司Coupang。 官网显示,其成立于2007年,总部
06-17
-
就在昨天,同性恋社交软件Zank宣布获得上市公司昆仑万维的数千万元B轮融资。 赞克创始人和首席执行官凌绝顶表示,融资资金将用于完善同志电子商务平台的建设和直播产品的开发。 资本看好“粉色经济” 互联网进入移动时代以来,社交软件层出不穷,充斥着人们的手机。 在以微信
06-18
-
》5月27日,OpenAI正式宣布成立OpenAI创投基金,将通过该基金向AI公司投资1亿美元。 OpenAI正在寻找少量早期初创公司,这些公司所在的领域人工智能可以产生变革性影响,例如医疗保健、气候变化和教育,以及基于生产力的人工智能工具。
06-17
-
据投资界8月24日消息,找游网宣布公司已完成1万美元B轮融资,由DCM领投,Wagonbang跟投,SIG耀明亚洲、云九等A轮投资方本轮融资,云启资本、GGV纪源资本、Venture Partners均继续跟投。 冲盈资本担任本轮融资独家募资方。 找油网创始人与CEO吕健表示:“未来,找油网将在
06-18
-
TechWeb 据报道,目前存储芯片市场形势并不乐观。 由于对全球经济衰退的担忧而导致的需求放缓已经影响了终端产品的开发。 需求反过来又影响存储芯片的需求。 有研究机构预测,NAND闪存和DRAM的价格正在下降,明年市场供过于求的情况将加剧。 存储芯片需求放缓和价格下降将不
06-06
最新文章
3月,腾讯《王者荣耀》在全球App Store和Google Play吸引了2.57亿美元,同比增长63%
生鲜传奇宣布完成数亿元B+轮融资
裁员20%?红杉中国回应:胡说,员工总数不降反升
第二次影视创新“闯”短剧世界:看、留、跳都是钱
ASML:从飞利浦弃儿到光刻之王
宁康瑞珠获数千万元A轮融资 横琴金投、翰颐资本投资
智能金融服务生态平台科客完成A+轮融资
拼多多九鼎:信息披露无懈可击,竞争对手才是“浇水”的