首页 > 技术迭代 > 内容

谷歌的 RT-2、机器人的 GPT-3 时刻是吗?

发布于:2024-06-28 编辑:匿名 来源:网络

*转载文章不代表本站观点。

本文来自微信公众号“geekpark”作者:李渊的新模型解决了机器人训练需要大量数据的问题。

作者 |编辑李源|郑玄 7月29日,《纽约时报》的记者在谷歌实验室率先看到了谷歌最新的RT-2模型驱动机器人。

一个单臂机器人站在桌子前。

桌子上坐着三个塑料雕像:狮子、鲸鱼和恐龙。

工程师给机器人下了指令:“捡起灭绝的动物。

”机器人咕噜了一会儿,然后伸出手臂,放下爪子。

它抓住了恐龙。

这是智慧的闪现。

《纽约时报》 描述道:“直到上周,这种演示都是不可能的。

机器人无法可靠地操纵它们以前从未见过的物体,它们当然也无法从“灭绝的动物”变成“塑料恐龙”。

逻辑上的飞跃。

虽然目前还处于演示阶段,而且谷歌并不打算大规模发布它,也不打算立即将其商业化,但这次演示足以让我们一睹大型模型能为机器人带来的机遇。

在大型模型时代出现之前,人们训练机器人,通常针对每项任务进行优化。

例如,抓取某个玩具需要足够多的数据,以便机器人能够从各个角度、所有灯光下准确识别该玩具并抓取。

成功。

要让机器人意识到自己有抓取玩具的任务,还需要对机器人进行编程来解决问题。

大型模型的智能和泛化能力让人们看到了解决这些问题、迈向通用机器人的曙光。

01 将 Transformer 应用于机器人 Google 新推出的 RT-2 模型,全称 Robotic Transformer 2,采用 Transformer 架构作为其模型的基础。

2016年提出的Transformer架构是目前全球流行的大语言模型(LLM)的最低基础。

但实际上,Transformer 作为一种架构,不仅可以应用于大型语言模型,还可以用于训练。

其他类型的数据。

早在今年3月份,谷歌就发布了PaLM-E,这是当时全球最大的视觉语言模型(VLM)。

在大型语言模型中,语言被编码为向量,人们向模型提供大量的语料库,使其可以预测人类接下来通常会说什么,从而生成语言答案。

在视觉语言模型中,模型可以将图像信息编码为类似于语言的向量,从而使模型能够以相同的方式“理解”文本和图像。

研究人员为视觉语言模型提供了大量的语料库和图像,使其能够执行视觉问答、为图像添加字幕、物体识别等任务。

无论是图像还是语言,都是比较容易大量获取的数据。

因此,该模型很容易获得令人惊叹的结果。

然而,使用 Transformer 架构来生成机器人行为存在很大的困难。

“涉及机器人运动的数据非常昂贵。

”清华大学交叉信息研究院助理教授徐华哲教授告诉极客公园,“视觉和语言数据都来自于人类,属于被动数据,而机器人的运动数据都来自于机器人的主动数据。

例如,如果我想研究机器人倒咖啡的动作,无论是我写代码让机器人执行,还是用其他方法让机器人执行,机器人都需要实际执行操作来获取这个数据的规模。

数据、语言和图像的量级完全不同。

”在谷歌研究的第一代机器人Transformer模型RT-1中,谷歌首次开始这样的挑战,尝试构建视觉语言动作模型,为了构建这样的模型,谷歌使用了13个机器人,花了17个月的时间。

在构建的厨房环境中收集机器人在多个任务上的活动数据的数据集,该数据集同时记录三个维度:视觉-机器人执行任务操作时的摄像头数据-自然描述的任务文本。

语言;以及机器人动作——机器人手执行任务时的xyz轴和偏转数据等。

图片来源:Google AI介绍视频 RT-2的创新之处在于RT-2使用了之前提到的视觉语言模型(VLM)PaLM-E和另一种视觉语言模型PaLI-X作为基础——简单来说就是视觉语言。

模型可以通过网络级数据进行训练,因为数据量足够大,可以达到足够好的结果。

在微调阶段,将机器人的动作数据添加到微调(co-finetuning)中。

这样一来,机器人就相当于先拥有了一个从海量数据中学习到的常识系统——虽然它还不能抓取香蕉,但它已经可以识别香蕉,甚至知道香蕉是一种水果。

猴子会比较喜欢吃。

在微调阶段,通过添加机器人在现实世界中看到香蕉后如何抓取香蕉的知识,使机器人不仅具备在各种光线和角度下识别香蕉的能力,而且还具备抓取香蕉的能力。

能力。

这样,使用 Transformer 架构训练机器人所需的数据就大大减少了。

RT-2在微调阶段直接使用RT-1训练阶段使用的视觉/语言/机器人运动数据集。

谷歌给出的数据显示,在抓取最初出现在训练数据中的项目时,RT-2 的表现与 RT-1 一样。

而且因为有了“有常识的大脑”,在抓取以前没见过的物品时,成功率从RT-1中的32%提升到了62%。

“这就是大模特的魅力。

”许华哲说道:“你不能把它拆成两个物体。

因为它会识别两个物体是否材质相似、大小相似或者其他原因,所以抓取的成功率会增加。

当它学到足够多的东西后,就会出现一些能力。

” 》02 在未来使用自然语言与机器人交互的学术领域,RT-2所展现出的强泛化性可能会解决机器人训练数据不足的问题。

在研究人员希望它能够捡起“可以用作锤子的东西”的实验中,它展示了智能的一面,机器人从一堆物品中捡起了一块石头,当被要求捡起提供的饮料时。

对于一个疲惫的人来说,机器人是从一堆物品中选出的,这种技能来自于研究人员在训练大型模型时引入“思维链”的能力,这样的多段语义推理是很难实现的。

传统机器人模仿学习研究。

然而,使用自然语言与机器人交互并不是RT-2的初衷。

在过去的机器人研究中,研究人员总是需要将任务需求转换成代码,以便机器人能够理解。

同时,如果出现问题,需要编写代码来纠正机器人的行为。

整个过程需要多次交互,效率低下。

由于我们已经拥有一个非常智能的会话机器人,下一步自然就是让机器人用自然语言与人类交互。

“我们大约两年前开始研究这些语言模型,我们意识到它们包含丰富的知识,”谷歌研究科学家卡罗尔·豪斯曼说。

“所以我们开始将它们连接到机器人。

然而,使用大型模型作为机器人的大脑也有其自身的问题。

最重要的问题之一是落地问题,即如何将大型模型经常不受约束的响应转换为驱动机器人动作的指令。

2016年,谷歌推出了Say-can模型。

顾名思义,该模型使用两个考虑因素来帮助机器人行动。

首先要考虑的是说。

该模型与Google的大语言模型PaLM模型相结合。

它可以通过自然语言和人类交互来分解获得的任务,以找到最合适的当前动作。

另一个考虑因素是可以。

该模型通过算法进行计算。

找出当前机器人能够成功执行此任务的概率。

机器人根据这两个考虑采取行动。

例如,如果你对机器人说:“我的牛奶洒了,你能帮我吗?”机器人首先会通过语言模型进行任务规划。

这时候,最合理的办法可能就是找清洁剂,其次就是找海绵自己擦拭。

然后机器人会使用算法计算出,作为机器人,它成功找到清洁工的概率很低,但找到海绵来清洁自己的概率很高。

经过再三考虑,机器人会选择找海绵擦牛奶的动作。

图片来源:Saycan 介绍视频 虽然在这样的两层模型架构中,机器人能够成功执行的动作已经被预先设计好了,但大语言模型只能帮助机器人选择合适的任务规划。

在这样的模型中,机器人表现出了很强的智能感。

然而,虽然从外观上看效果相似,但 RT-2 采用了不同的方法。

在训练过程中,模型同时学习三种类型的数据:视觉、语言和机器人行为。

RT-2模型并不是先分解任务再执行任务操作。

而是在自然语言输入后,通过模型的运算直接生成动作。

输出。

“双层结构就像我想做某件事时一样。

我首先考虑第一步要做这个,第二步要做那个,然后逐一执行这些策略。

”许华哲教授说:“端到端的结构是类似的,我没有仔细考虑第一步和第二步,所以我就这么做了。

”后者的一个例子可以比作我们在电脑上打字和聊天。

每天都有手机。

我们在打字和聊天时一般不会认真对待它。

我没有考虑肌肉应该如何运动,而是想到了我想要输入的单词并直接输入了它。

“两条不同的路线或不同的方法并没有证明自己是唯一正确的方法。

”许华哲说道。

但由于RT-2的优异性能,能够接管输入和输出的模型的技术方向似乎值得探索。

“由于这一变化(RT-2 的出色性能),我们不得不重新考虑整个研究计划,”Google DeepMind 机器人总监 Vincent Vanhoucke 说道。

“我们之前做的很多事情都是完全没用的。

” 03RT-2是机器人的GPT3时刻吗?谷歌的 RT-2 机器人并不完美。

在记者《纽约时报》亲眼目睹的实际演示中,它错误地识别了一罐柠檬味汽水的味道(说是“橙味”)。

还有一次,当被问到桌子上有什么水果时,机器人回答“白色”(实际上是香蕉)。

谷歌发言人解释说,该机器人使用了之前测试人员缓存的问题答案,因为它的 Wi-Fi 曾短暂中断。

此外,使用大型模型来训练机器人不可避免地面临成本问题。

谷歌的 RT-2、机器人的 GPT-3 时刻是吗?

目前,谷歌的机器人在进行推理判断时,需要将数据传输到云端,让多个TPU一起进行计算,然后将结果发送回机器人,由机器人进行运算。

这样的计算可以想象是非常昂贵的。

谷歌 DeepMind 机器人技术总监 Vincent Vanhoucke 认为,新研究为机器人在人类环境中使用打开了大门——研究人员认为,内置语言模型的机器人可以进入仓库并使用……在医疗行业,或者甚至作为家庭助理,帮助叠衣服、从洗碗机中取出物品以及整理房子周围。

“如果你开一家工厂,需要使用机器人,那么成功率一定非常高。

你不要说,买了机器人之后,就需要很多人来维护机器人,改进机器人所需要的东西。

”那么这个成本就太高了,”徐华哲教授说,“家庭场景下的机器人可能是另外一种情况,因为可能家庭场景下的一些任务的成功率要求没有那么高。

叠衣服没那么好,在你眼里可能没那么好,任务失败了,但对你的影响不会很大。

”人工智能三巨头之一的雅安乐存有一个被多次强调的著名结论:人工智能不够聪明。

任何孩子都可以很快学会清理桌子并将盘子放入洗碗机,但机器人不能。

对于当前的机器人研究来说也许确实如此,但正如不完美的GPT-3让业界看到了大规模模型开发的方向一样,也许今天不完美的RT-2也将开启机器人进入家庭和家庭的未来时代。

成为我们的助手。

谷歌的 RT-2、机器人的 GPT-3 时刻是吗?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 据报道,珠海银隆欠款逾10亿,新能源汽车制造全都在“裸奔”吗?

    据报道,珠海银隆欠款逾10亿,新能源汽车制造全都在“裸奔”吗?

    “当我来到CES时,我发现大家都在裸奔!只是有的人知道自己在裸奔,有的人不知道自己在裸奔,或者干脆装作不知道。 ”这就是一位行业投资人在CES上考察新产品的重点。 能源汽车从概念到量产的“抱怨”。   这句话应验了,珠海银隆被“枪杀”了。 临近新年,有媒体报道称,

    06-18

  • 2024年的大模式:科技“在天上”,创业者“在地上”

    2024年的大模式:科技“在天上”,创业者“在地上”

    作者|宛辰编辑|靖宇之年,OpenAI引发了科技圈久违的兴奋。 创业者感觉自己在前进的同时,也随着AI模型的反复进化感受到了压力。 春节前夕,算力、模型、应用领域的大模型齐聚创业者社区活动,讨论他们在大模型演进中找到的空间。 面对即将推出的GPT-5和Llama3,他们也有了新的

    06-17

  • 大成资本完成对北京京都儿童医院的投资,逐步打造中高端医疗服务平台

    大成资本完成对北京京都儿童医院的投资,逐步打造中高端医疗服务平台

    据投资界8月12日消息,大成资本近日宣布完成对北京京都儿童医院的控股投资京都儿童医院。 京都儿童医院位于北京市昌平区。 是国内最大的非公立三级儿童医院,也是北京唯一一家非公立三级儿童医院。 北京京都儿童医院于今年6月正式开业,建筑面积近4万平方米。 目前拥有床位4

    06-18

  • 有消息称,中国移动正在考虑从美股退市后登陆A股

    有消息称,中国移动正在考虑从美股退市后登陆A股

    据悉,中国移动正在考虑从美股退市后登陆A股。 目前仍处于早期讨论阶段。 听,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得礼物。

    06-18

  • 梅耶博格计划于 2022 年推出太阳能光伏屋顶瓦

    梅耶博格计划于 2022 年推出太阳能光伏屋顶瓦

    为此,这家瑞士集团已从一家未透露姓名的德国工程服务提供商处收购了一体化太阳能屋顶系统解决方案,旨在在利基市场开始拓展这一领域。 瑞士 MeyerBurger 公司刚刚通过其位于德国萨克森自由州的生产线生产出了首款异质结 Smartwire 太阳能模块,并已在计划下一步。 该公司周

    06-08

  • 比亚迪:子公司拟出资3亿美元参与投资基金

    比亚迪:子公司拟出资3亿美元参与投资基金

    据10月8日消息,比亚迪宣布,旗下子公司Golden Link拟出资3亿美元参与投资基金Community Fund LP。 预计募资规模不超过6亿美元,主要投资科技、医疗创新等领域的优秀子基金。

    06-17

  • 工商银行:一季度净利润857.3亿元,同比增长1.46%

    工商银行:一季度净利润857.3亿元,同比增长1.46%

    工商银行今日公布,一季度净利润3亿元,同比增长1.46%。

    06-17

  • 红杉中国、中金公司、国投创新领投比亚迪半导体

    红杉中国、中金公司、国投创新领投比亚迪半导体

    据投资界(微信ID:pedaily)消息,红杉中国近期完成了对比亚迪半导体有限公司(以下简称“比亚迪半导体”)的战略投资。 比亚迪半导体》)。 本轮投资由红杉中国、中金资本、国投创新领投。 喜马拉雅资本等国内外知名投资机构参与投资,投资总额达19亿元人民币。 除上述机构

    06-18

  • 成都知视科技完成1000万元A+轮融资

    成都知视科技完成1000万元A+轮融资

    据投资界10月30日消息,成都知视科技有限公司完成由著名投资联合投资的1000万元A+轮融资和求灿科技。 此前,成都知视科技完成由深圳长润资本投资的数千万元A轮融资。 知识视觉成立于2016年,致力于工具化机器视觉、深度学习、知识图谱等前沿人工智能技术。 为客户在医疗、保

    06-18

  • 一人付费,全家人享受!苹果App内购还支持“家人分享”,省钱又省心

    一人付费,全家人享受!苹果App内购还支持“家人分享”,省钱又省心

    虽然“家人分享”功能在iOS 8时代就已经上线,但很多读者反映仍然“不懂”, “ 不曾用过”。 事实上,随着系统版本的不断更新,“家人共享”也在不断升级和完善。 这不,就在最近,苹果的内购程序也支持了“家人分享”,这是一个好消息。 那么今天A先生就跟大家聊聊如何使用

    06-21

  • 【融资24小时】2022年6月10日

    【融资24小时】2022年6月10日

    2020年6月10日投融资事件摘要及明细。 今日国内市场共发生21起投资披露事件,其中医疗健康领域5起(科乐斯生物科技、成都维康、耀明医谷、智汇医疗)和伊鸿健康)。 先进制造案例5个(中润化工、科塔电子、灿能电气、无限光能、德方纳米)、汽车交通案例3个(豌豆拼车、爱车掌

    06-18

  • 嘉御卫哲:我要找到十个少年合伙人

    嘉御卫哲:我要找到十个少年合伙人

    嘉裕基金成立十周年,迎来了里程碑。 9月初,嘉裕基金正式更名为“嘉裕资本”。 与此同时,其首支独立子基金——专注于早期科技投资的前沿科技基金也终于亮相。 投资界独家获悉,这只全新基金已在嘉裕内部模拟运行三年。 今年5月底开始独立募资,不到三个月就完成了关账首轮

    06-18