商务部:各地可出台或延续新车购置补贴政策,新车产地、品牌等补贴条件应公平公正
06-17
以GPT-4为代表的大型模型已经构建了大脑,下一步需要一个可以承载这个大脑的机器人身体。

昨晚,人形机器人明星公司Figure AI震撼发布了一段视频,展示了他们的机器人Figure 01在OpenAI强大模型的支持下进行的一系列对话交互。
视频中的机器人表现出了灵活的操作反应,与人类交流的流畅程度几乎可以与真人相媲美。
这距离Figure AI获得OpenAI、微软、NVIDIA等公司投资还不到半个月。
它还让我看到了 OpenAI 最强大的多模态大型模型在有实体的情况下会是什么样子。
图01,最懂你的人形机器人?得益于OpenAI多模态大模型的强大支持,图01现在已经是桌子上物体识别的小能手了。
苹果、滤水器、杯子和盘子对它来说都是小菜一碟!当你饿了,想让它吃一大口的时候,它会立刻理解你的想法,顺利地递给你一个苹果。
此外,它甚至可以捡起你丢弃的垃圾,并向你解释为什么它刚刚给了你苹果。
借助大模型,图01可以理解餐桌上唯一的食物——苹果。
在人的指挥下,人物01还可以做家务、收餐具。
这个机器人简直就是家庭生活中的最佳伙伴。
看到这段令人震惊的视频后,网友们的反应五花八门。
网友们迫不及待地给图01分配任务,任务清单里怎么也有机器人前辈的电影呢。
竞争对手们生怕自己看到,心里着急,暗暗摩拳擦掌,准备一场技术大比拼?更有兴奋的网友表示,AGI的曙光似乎指日可待。
当然,也总有一些批评的声音。
有网友抱怨,这个机器人怎么会结巴呢?网友们也不放过调侃的机会。
Figure AI 负责人 Brett Adock 也不甘寂寞,在 X 上跳出来给出了精彩解读。
该视频演示了端到端神经网络的应用。
在此过程中不使用远程控制(teleop)。
视频以实际速度(1.0 倍速)拍摄并且是连续的。
正如您在视频中看到的,机器人的速度有了显着提高,我们正在逐渐达到与人类相似的速度。
无需远程控制,自学 那么图01是如何做到的呢?图 AI 团队负责人 Corey Lynch 在 X 上对此进行了解释。
具体来说,视频中演示的所有行为都是学习的(不是远程控制的)并以真实的速度(1.0 倍速度)执行。
Figure AI 将机器人摄像头捕获的图像和通过机载麦克风记录的语音转录文本输入到由 OpenAI 训练的多模态模型中,该模型可以理解图像和文本信息。
该模型处理整个对话历史记录,包括过去的图像,以生成口头响应并通过文本转语音与人类对话。
同一模型还负责通过将特定的神经网络权重加载到 GPU 上并执行相应的策略来决定执行哪些学习的闭环行为来响应给定的命令。
将Figure 01 连接到大型预训练多模态模型为其带来了许多有趣的新功能。
图 01 + OpenAI 现在可以: 详细说明其周围环境。
做出决定时使用常识推理。
例如,“桌子上的物品,比如盘子和杯子,接下来很可能会被放在晾衣架上。
”将模糊的高级指令(例如“我饿了”)转化为适合具体情况的行动,例如“递给那个人一个苹果”。
用简单的英语解释为什么它执行特定操作。
比如,“这是我从桌子上能提供的唯一可以吃的东西”。
说到图01通过学习学到的精细的双手操作技巧,背后其实有一系列复杂而微妙的原理。
所有行为均由神经网络的视觉到运动转换器策略驱动,该策略直接将图像像素映射到动作。
这些网络以每秒 10 帧的速率接收内置于机器人中的图像,并生成 24 自由度运动(包括手腕)。
姿势和手指关节角度)每秒。
这些运动作为高速全身控制器跟踪的高速“设定点”,确保运动的精确执行。
这种设计可以有效分离关注点:互联网预训练模型。
对图像和文本进行常识推理以生成高级计划。
学习的视觉运动策略执行该计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。
同时,全身控制器还负责保证动作的安全性和稳定性,例如保持机器人的平衡。
对于Figure 01所取得的巨大进步,Corey Lynch感叹道:就在几年前,我还以为与一个能够自主规划和执行学习行为的人形机器人进行完整的对话将是在未来几十年的事情。
显然,很多事情都发生了巨大的变化。
这会是人形机器人的 GPT 时刻吗?不得不说,图01的开发速度就像是踩着油门,一路狂奔。
今年1月,图01掌握了煮咖啡的技巧。
这一成就归功于端到端神经网络的引入,使机器人能够自主学习并纠正错误,仅需要 10 个小时的训练。
一个月后,Figure 01 学会了抬起箱子并将其运送到传送带上的新技能,尽管速度只有人类的 16.7%。
在此过程中,Figure AI商业化的脚步并未停止。
与宝马制造公司签署商业协议,将人工智能和机器人技术融入汽车生产线,并落户宝马工厂。
然后,就在两周前,Figure 宣布完成了 6.75 亿美元的 B 轮融资,公司估值达到 26 亿美元。
投资者几乎覆盖了半个硅谷——微软、OpenAI Venture Fund、Nvidia、Jeff Bezos、Parkway Venture Capital、Intel Capital和Align Ventures等。
当时,OpenAI和Figure也宣布将联合开发下一代人形机器人机器人人工智能模型。
OpenAI的多模态模型将扩展到机器人感知、推理和交互。
现在,从图01中,我们似乎能够瞥见未来生活的一个草稿。
事实上,在大型模型出现之前,机器人就是专门的设备。
现在随着大型模型的通用能力,通用机器人开始出现。
现在我们不仅需要ChatGPT,还需要WorkGPT。
这些演变间接印证了一条清晰可见的路径:大型AI模型扎根后,最终将进入现实世界,而具身智能是最好的路径。
一直活跃在人工智能第一线的英伟达创始人黄仁勋曾表示:“具身智能将引领下一波人工智能浪潮。
”将OpenAI大模型融入图01也是一种有意的战略布局。
成熟的AI大模型充当人工大脑,模拟人脑复杂的神经网络,实现语言理解、视觉识别、情境推理等认知功能,为机器人解决更高层次的认知和决策问题。
同时,机器人本体中集成了各种传感器、执行器和计算单元,实现感知以及与环境的交互。
例如,视觉系统可以捕获图像和视频,触觉传感器可以感知物体的形状和纹理。
Figure AI创始人Brett Adcock此前在接受采访时表示,未来1-2年,Figure AI将重点开发标志性产品,并期望在未来一两年内向公众展示人形机器人的研发成果,涵盖AI系统、底层控制等,最终诞生出能在日常生活中大显身手的机器人。
他还透露,从成本来看,一个人形机器人大约有1000个零件,重量约为68磅(68公斤),而一辆电动汽车可能有大约10000个零件,重量高达10000磅(公斤)。
因此,从长远来看,人形机器人的成本预计将低于廉价电动汽车,具体取决于执行器、电机组件、传感器和计算成本的成本。
机器人专家Eric Jang曾提出自己的见解:“虽然很多AI研究人员认为通用机器人还需要几十年的时间才能普及,但不要忘记ChatGPT几乎是一夜之间诞生的。
”一年前的今天,OpenAI震撼发布了GPT-4,向世界证明了大模型的力量。
一年后的今天,我们没有等到GPT-5,但我们也迎来了图01。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态