首页 > 技术迭代 > 内容

谷歌的 RT-2、机器人的 GPT-3 时刻是吗？

发布于：2024-06-28 编辑：匿名来源：网络

*转载文章不代表本站观点。

本文来自微信公众号“geekpark”作者：李渊的新模型解决了机器人训练需要大量数据的问题。

作者 |编辑李源|郑玄 7月29日，《纽约时报》的记者在谷歌实验室率先看到了谷歌最新的RT-2模型驱动机器人。

一个单臂机器人站在桌子前。

桌子上坐着三个塑料雕像：狮子、鲸鱼和恐龙。

工程师给机器人下了指令：“捡起灭绝的动物。

”机器人咕噜了一会儿，然后伸出手臂，放下爪子。

它抓住了恐龙。

这是智慧的闪现。

《纽约时报》描述道：“直到上周，这种演示都是不可能的。

机器人无法可靠地操纵它们以前从未见过的物体，它们当然也无法从“灭绝的动物”变成“塑料恐龙”。

逻辑上的飞跃。

虽然目前还处于演示阶段，而且谷歌并不打算大规模发布它，也不打算立即将其商业化，但这次演示足以让我们一睹大型模型能为机器人带来的机遇。

在大型模型时代出现之前，人们训练机器人，通常针对每项任务进行优化。

例如，抓取某个玩具需要足够多的数据，以便机器人能够从各个角度、所有灯光下准确识别该玩具并抓取。

成功。

要让机器人意识到自己有抓取玩具的任务，还需要对机器人进行编程来解决问题。

大型模型的智能和泛化能力让人们看到了解决这些问题、迈向通用机器人的曙光。

01 将 Transformer 应用于机器人 Google 新推出的 RT-2 模型，全称 Robotic Transformer 2，采用 Transformer 架构作为其模型的基础。

2016年提出的Transformer架构是目前全球流行的大语言模型（LLM）的最低基础。

但实际上，Transformer 作为一种架构，不仅可以应用于大型语言模型，还可以用于训练。

其他类型的数据。

早在今年3月份，谷歌就发布了PaLM-E，这是当时全球最大的视觉语言模型（VLM）。

在大型语言模型中，语言被编码为向量，人们向模型提供大量的语料库，使其可以预测人类接下来通常会说什么，从而生成语言答案。

在视觉语言模型中，模型可以将图像信息编码为类似于语言的向量，从而使模型能够以相同的方式“理解”文本和图像。

研究人员为视觉语言模型提供了大量的语料库和图像，使其能够执行视觉问答、为图像添加字幕、物体识别等任务。

无论是图像还是语言，都是比较容易大量获取的数据。

因此，该模型很容易获得令人惊叹的结果。

然而，使用 Transformer 架构来生成机器人行为存在很大的困难。

“涉及机器人运动的数据非常昂贵。

”清华大学交叉信息研究院助理教授徐华哲教授告诉极客公园，“视觉和语言数据都来自于人类，属于被动数据，而机器人的运动数据都来自于机器人的主动数据。

例如，如果我想研究机器人倒咖啡的动作，无论是我写代码让机器人执行，还是用其他方法让机器人执行，机器人都需要实际执行操作来获取这个数据的规模。

数据、语言和图像的量级完全不同。

”在谷歌研究的第一代机器人Transformer模型RT-1中，谷歌首次开始这样的挑战，尝试构建视觉语言动作模型，为了构建这样的模型，谷歌使用了13个机器人，花了17个月的时间。

在构建的厨房环境中收集机器人在多个任务上的活动数据的数据集，该数据集同时记录三个维度：视觉-机器人执行任务操作时的摄像头数据-自然描述的任务文本。

语言；以及机器人动作——机器人手执行任务时的xyz轴和偏转数据等。

图片来源：Google AI介绍视频 RT-2的创新之处在于RT-2使用了之前提到的视觉语言模型（VLM）PaLM-E和另一种视觉语言模型PaLI-X作为基础——简单来说就是视觉语言。

模型可以通过网络级数据进行训练，因为数据量足够大，可以达到足够好的结果。

在微调阶段，将机器人的动作数据添加到微调（co-finetuning）中。

这样一来，机器人就相当于先拥有了一个从海量数据中学习到的常识系统——虽然它还不能抓取香蕉，但它已经可以识别香蕉，甚至知道香蕉是一种水果。

猴子会比较喜欢吃。

在微调阶段，通过添加机器人在现实世界中看到香蕉后如何抓取香蕉的知识，使机器人不仅具备在各种光线和角度下识别香蕉的能力，而且还具备抓取香蕉的能力。

能力。

这样，使用 Transformer 架构训练机器人所需的数据就大大减少了。

RT-2在微调阶段直接使用RT-1训练阶段使用的视觉/语言/机器人运动数据集。

谷歌给出的数据显示，在抓取最初出现在训练数据中的项目时，RT-2 的表现与 RT-1 一样。

而且因为有了“有常识的大脑”，在抓取以前没见过的物品时，成功率从RT-1中的32%提升到了62%。

“这就是大模特的魅力。

”许华哲说道：“你不能把它拆成两个物体。

因为它会识别两个物体是否材质相似、大小相似或者其他原因，所以抓取的成功率会增加。

当它学到足够多的东西后，就会出现一些能力。

” 》02 在未来使用自然语言与机器人交互的学术领域，RT-2所展现出的强泛化性可能会解决机器人训练数据不足的问题。

在研究人员希望它能够捡起“可以用作锤子的东西”的实验中，它展示了智能的一面，机器人从一堆物品中捡起了一块石头，当被要求捡起提供的饮料时。

对于一个疲惫的人来说，机器人是从一堆物品中选出的，这种技能来自于研究人员在训练大型模型时引入“思维链”的能力，这样的多段语义推理是很难实现的。

传统机器人模仿学习研究。

然而，使用自然语言与机器人交互并不是RT-2的初衷。

在过去的机器人研究中，研究人员总是需要将任务需求转换成代码，以便机器人能够理解。

同时，如果出现问题，需要编写代码来纠正机器人的行为。

整个过程需要多次交互，效率低下。

由于我们已经拥有一个非常智能的会话机器人，下一步自然就是让机器人用自然语言与人类交互。

“我们大约两年前开始研究这些语言模型，我们意识到它们包含丰富的知识，”谷歌研究科学家卡罗尔·豪斯曼说。

“所以我们开始将它们连接到机器人。

然而，使用大型模型作为机器人的大脑也有其自身的问题。

最重要的问题之一是落地问题，即如何将大型模型经常不受约束的响应转换为驱动机器人动作的指令。

2016年，谷歌推出了Say-can模型。

顾名思义，该模型使用两个考虑因素来帮助机器人行动。

首先要考虑的是说。

该模型与Google的大语言模型PaLM模型相结合。

它可以通过自然语言和人类交互来分解获得的任务，以找到最合适的当前动作。

另一个考虑因素是可以。

该模型通过算法进行计算。

找出当前机器人能够成功执行此任务的概率。

机器人根据这两个考虑采取行动。

例如，如果你对机器人说：“我的牛奶洒了，你能帮我吗？”机器人首先会通过语言模型进行任务规划。

这时候，最合理的办法可能就是找清洁剂，其次就是找海绵自己擦拭。

然后机器人会使用算法计算出，作为机器人，它成功找到清洁工的概率很低，但找到海绵来清洁自己的概率很高。

经过再三考虑，机器人会选择找海绵擦牛奶的动作。

图片来源：Saycan 介绍视频虽然在这样的两层模型架构中，机器人能够成功执行的动作已经被预先设计好了，但大语言模型只能帮助机器人选择合适的任务规划。

在这样的模型中，机器人表现出了很强的智能感。

然而，虽然从外观上看效果相似，但 RT-2 采用了不同的方法。

在训练过程中，模型同时学习三种类型的数据：视觉、语言和机器人行为。

RT-2模型并不是先分解任务再执行任务操作。

而是在自然语言输入后，通过模型的运算直接生成动作。

输出。

“双层结构就像我想做某件事时一样。

我首先考虑第一步要做这个，第二步要做那个，然后逐一执行这些策略。

”许华哲教授说：“端到端的结构是类似的，我没有仔细考虑第一步和第二步，所以我就这么做了。

”后者的一个例子可以比作我们在电脑上打字和聊天。

每天都有手机。

我们在打字和聊天时一般不会认真对待它。

我没有考虑肌肉应该如何运动，而是想到了我想要输入的单词并直接输入了它。

“两条不同的路线或不同的方法并没有证明自己是唯一正确的方法。

”许华哲说道。

但由于RT-2的优异性能，能够接管输入和输出的模型的技术方向似乎值得探索。

“由于这一变化（RT-2 的出色性能），我们不得不重新考虑整个研究计划，”Google DeepMind 机器人总监 Vincent Vanhoucke 说道。

“我们之前做的很多事情都是完全没用的。

” 03RT-2是机器人的GPT3时刻吗？谷歌的 RT-2 机器人并不完美。