首页 > 科技未来 > 内容

当您在波士顿动力机器狗上安装 ChatGPT 时会发生什么？

发布于：2024-06-21 编辑：匿名来源：网络

波士顿动力的“大黄狗”Spot可以说是网红机器人的典范。

能巡逻、搬砖、跳舞的Spot自诞生以来就吸引了全世界机器人爱好者的关注。

这样一只动作灵活、姿势简单、可爱的机器狗谁能抗拒呢。

经过多年的发展，可爱已经不再是 Spot 的“主业”。

波士顿动力公司表示，Spot 现在可以帮助人类完成特定场景下的任务，例如探测跨洋船舶上的仪器以及参与复杂地形的勘测。

或者救援工作等等。

如果像 Spot 这样灵活的身体配备像 ChatGPT 这样聪明的大脑，会发生什么？人工智能专家圣地亚哥·瓦尔达拉马居然用“最强大的大脑”制造了这样一个Spot。

使用 ChatGPT 大大简化人机交互 Santiago 在 Twitter 上分享了一段他与修改版 Spot 交互的视频，这可能是历史上第一只会说话、聊天的机器狗。

正如您在演示视频中看到的，Spot 不仅仅是一个“Siri”。

当它回答人类问题时，它的身体也会随着句子的内容和语调摆动，看起来就像科幻电影中的瓦力来到了现实。

当你问“是或否”等简单问题时，它也会用“点头”、“摇头”等肢体语言来代替声音来回答你。

这表明Spot远不仅仅是一个内置的智能音箱。

连接ChatGPT后，Spot最大的变化是它可以理解人类语音，可以用自然语言与用户进行交流。

圣地亚哥演示了一个场景。

他告诉Spot，房间太拥挤了，因为它挡住了路，并要求他退后一点。

话音刚落，斑点就明白了圣地亚哥的意思，向后退了几步。

这个怎么样？这不是就像科幻电影里叫机器人工作一样吗？过去，操作 Spot 需要大型无人机般的遥控器或计算机来输入复杂的指令。

现在，ChatGPT的加入赋予了Spot强大的自然语言理解能力，让它只需动动嘴就能与机器人互动。

在这个过程中，ChatGPT充当人类和机器人之间的翻译者，将人类输入的“人话”转化为机器可以理解的指令，然后用实际行为或“人话”表达机器人的反馈。

Santiago表示，他们将Spot文件输入ChatGPT，并向其解释该文件的结构以及如何读取该文件，从而可以与Spot进行语音对话和操作。

操作员和 Spot 之间的交互已大大简化。

人们可以直接问它：“你有多少电池？”，Spot会通过语音回答，它使用了谷歌文本转语音技术。

通过 Spot 的“嘴”说出 ChatGPT 的回复。

Spot（或内置ChatGPT）会根据实际情况回答问题。

比如，当你问它接下来需要完成什么任务时，它会根据设定的任务列表进行回答，这在很大程度上避免了ChatGPT。

捏造事实。

当操作员向Spot发出转弯90度、前进1米等命令时，Spot会联动内部传感器和定位系统，准确响应这些命令，不会因为“大脑过于发达”而失去控制。

有趣的是，当你问它“你是谁？”时，它会回答“我是 OpenAI”。

而不是机器狗 Spot。

圣地亚哥的公司 Levatas 是一家人工智能公司，与波士顿动力公司合作，帮助企业探索如何使用机器人解决现实世界的问题。

Santiago认为，在Spot上安装ChatGPT最大的现实意义就是将只有技术人员才能处理的复杂数据变成任何人都能理解和理解的自然语言。

机器人每次执行任务时，都必须输入一组冗长的指令；它完成工作后会产生大量的数据，只有最专业的技术人员才能从这些数据中分析问题。

但现在通过ChatGPT，只需两句话就可以完成。

当机器人的操作门槛变得更低时，机器人的使用场景就会变得更加丰富。

大型人工智能模型的潜力不容低估。

Spot 的“最强大脑”版本并非一朝一夕打造出来的。

一个月前，圣地亚哥发布了一段视频，介绍了一款可以“理解人类语言”的 Spot。

它使用 OpenAI 的另一个版本。

一个重要的AI模型Whisper。

在这个智能Spot的“第一版”中，Santiago更详细地介绍了原理：Whisper可以高效地将语音实时转换为文本，而且转换的准确性和速度都非常令人印象深刻。

通过将Whisper与Spot的SDK相结合，它可以从人类语音中提取关键文本，然后通过SDK向Spot发送命令。

只需对它说一句话，Spot就可以离开充电座，起身检查电表是否有问题，大大降低了人力操作成本。

Santiago的实践从一个很好的角度回答了一个被广泛讨论的问题：像ChatGPT这样的大型语言模型的意义是什么？一开始，人们认为ChatGPT是一个纯粹的文本生成AI。

它具有较强的自然语言理解能力，可以撰写文章和报告。

虽然不太靠谱，但也还是很了不起。

后来人们发现，只要给予ChatGPT适当的指令，它就可以代替人类自动完成编程或文字处理任务，就像基于自然语言操作的计算机一样。

OpenAI发布插件集功能后，ChatGPT可以与很多互联网应用结合，集成很多跨平台的操作和对话，成为互联网的新入口。

微软发布的Copilot启发了人们对人机交互下一阶段的想象：图形操作界面并不一定总是合理的范式，我们习惯的很多操作都可以被对话所取代。

当我们回到Spot时，我们可以清楚地看到大语言模型的意义：简化人机交互，赋予机器人更高级的智能。

无论您使用ChatGPT作为新的互联网入口，还是作为远程控制来控制具有学习能力、问题分析能力和执行高精度操作能力的工业机器人，它本质上都是将复杂的指令集转化为自然语言，降低了运营成本。

这种赋能将使未来的工业机器人不仅是执行指令的工具，而且具有与人脑相媲美的智能水平。

正如图形界面将复杂的命令行变成了直观的图标，现在点击不同图标的复杂操作变成了简单的一句话，人类正在从图形用户界面走向一个新的阶段：自然语言用户界面。

现阶段，大语言模型将成为工业机器人的关键技术，将简化人机交互，提高生产效率，进一步推动人类??社会科技发展。

在某些情况下，语言模型在理解语言方面甚至可以比人类表现得更好。

普林斯顿大学教授阿尔文德·纳拉亚南(Arvind Narayanan)在博客中提到了他的一个个人案例。

Arvind Narayanan 将语音交互与 ChatGPT 连接起来，并将其用于他快四岁的女儿。

和所有的孩子一样，他的女儿充满了好奇心，经常向ChatGPT提出各种各样的问题。

令他惊讶的是，当他告诉 ChatGPT 它正在和一个孩子说话时，ChatGPT 变得非常善于表现出同理心。

女儿：“关掉灯会发生什么？” ChatGPT：“当你关掉灯时，周围会变得很暗，可能会有点可怕。

但别担心！有很多东西可以帮助您在黑暗中感到安全。

舒服的。

” 《彭博社》专栏作家 Parmy Olson 指出，微软和谷歌都忙于在搜索引擎中使用大型模型，但他们并没有看到 ChatGPT 更适合作为情感伴侣而不是作为事实提供者。