首页 > 技术迭代 > 内容

神话般的GPT无法打造出你梦想中的神车

发布于：2024-06-28 编辑：匿名来源：网络

*转载文章不代表本站观点。

本文来自微信公众号“深途”（shentucar）作者：黎明 ChatGPT 火爆后，大型 AI 模型成为众多科技公司追逐的热点。

从聊天对话，到图像生成，再到桌面办公，AI似乎有一夜之间颠覆一切的力量。

热潮蔓延到汽车行业，从业者开始思考：让GPT造汽车是否可行？有的车企宣布将应用大车型技术，有的车企表示将集成第三方大车型，还有的车企抢着发布打着GPT字样的自动驾驶系统。

有从业者告诉深途，智能座舱和自动驾驶可能是大模型首先应用的场景。

其中，最令人期待的就是自动驾驶。

自动驾驶是一条极其艰难的赛道。

除了谷歌、百度等科技巨头外，天才、创业者等一大批人也参与其中，烧掉了数十亿，但迄今为止都没有取得令人满意的结果。

AI大型车型进军自动驾驶，这次会不一样吗？ GPT与汽车有多大关系？表面上看，GPT和汽车没有直接的联系，但实际上却有着很深的联系。

故事要从六年前说起。

今年6月，特斯拉老板马斯克从OpenAI挖走了斯洛伐克人研究员。

这个人的名字叫安德烈·卡帕蒂（Andrej Karpathy），后来成为特斯拉的人工智能总监。

当时，马斯克对人工智能表现出了极大的兴趣，他也是OpenAI的创始人和捐赠者之一。

在招募 Andrej Karpathy 后不久，马斯克就离开了 OpenAI 董事会。

他认为特斯拉和OpenAI都在研究AI，未来可能会存在利益冲突。

后来Andrej Karpathy在特斯拉重写了自动驾驶算法，开发了BEV纯视觉感知技术，将特斯拉的自动驾驶带入了新阶段。

他的前雇主OpenAI将所有筹码押在通用人工智能上，最终开发出了GPT。

从产品角度来看，OpenAI的GPT和特斯拉的BEV是完全不同的物种。

但从技术底层来说，它们都依赖于人工智能技术，尤其是Google Transformer模型的应用。

Transformer是谷歌8位AI科学家于2016年提出的深度学习神经网络架构，这是人工智能行业极其重要的发明。

当今流行的ChatGPT中的“T”指的是Transformer大型模型。

与传统神经网络RNN和CNN不同，Transformer采用自注意力机制来挖掘序列中不同元素的联系和相关性，具有良好的时间序列数据处理能力。

这使得它能够在机器翻译、文本摘要和问答系统等任务中展现出出色的性能。

因此，Transformer最初被用于NLP（高级自然语言处理）领域来理解人类文本和语言。

对 Transformer 模型进行预训练。

经过不断微调和迭代，OpenAI陆续推出了GPT-1、GPT-2、GPT-3、GPT-4等大型语言训练模型。

ChatGPT是OpenAI对GPT-3模型进行微调后开发的对话机器人。

由于它可以以对话的方式进行交互，普通人使用起来很简单，而且比过去的聊天机器人更加“聪明”，所以它大放异彩。

从根本上来说，ChatGPT的GPT模型、Google的LaMDA模型、百度的文信模型是同源的。

Source/pexels 使用自然语言的 Transformer 模型，催生了 ChatGPT 等聊天应用；将其运用在计算机视觉中也取得了惊人的成果，而这方面的先行者就是特斯拉。

安德烈·卡帕蒂 (Andrej Karpathy) 担任特斯拉 AI 总监时，负责领导自动驾驶的计算机视觉团队。

通过结合Transformer模型，特斯拉成功开发了BEV技术。

BEV的全称是Bird's Eye View。

它可以将摄像头拍摄的2D图像拼接转换为3D图像，并统一转换为鸟瞰图进行处理，形成“上帝视角”。

原因是：驾驶是在三维空间中进行的，人们看到的是三维世界而不是二维图像。

这一全新的感知解决方案由 Andrej Karpathy 在今年 8 月的 Tesla AI DAY 上进行了展示。

为此，特斯拉不惜重写自动驾驶算法，重构训练深度神经网络的基础设施。

这是大模型技术首次应用于自动驾驶行业。

今天回过头来看，虽然GPT目前主要应用在自然语言处理领域，我们不能让GPT来开车，但其背后的AI大模型技术，尤其是Transformer架构，其实已经在自动驾驶上得到了应用。

应用领域。

从自然语言处理到计算机视觉，两个领域基于Transformer架构统一了建模结构，使得联合建模变得更加容易。

随着对AI认识的加深，汽车企业越来越像人工智能公司。

除了特斯拉之外，理想汽车今年年初也公布了公司愿景，声称到2020年将成为一家人工智能公司，今年将推出城市NOA导航辅助驾驶系统。

技术支撑是BEV感知和Transformer模型。

让AI与人对话和让AI开车似乎没有本质区别，但场景不同。

在将底层技术应用到具体产品上时，人类总是充满想象力。

GPT教什么自动驾驶今年以来，GPT展示了强大的能力，让外界感到极大震惊。

通用人工智能不再是空中楼阁。

自动驾驶行业人士开始思考，或许生成式AI在语言模型上的应用思路可以转移到自动驾驶上。

本质上，语言模型是人类语言的数学模型。

计算机仍然无法理解自然语言，但它通过数学建模将语言问题转化为数学问题。

通过根据给定文本的历史预测下一个单词出现的概率，我们间接理解自然语言。

切换到驾驶场景，如果给定当前的交通环境、导航地图、驾驶员的历史驾驶行为，大模型能否预测下一步的驾驶动作？地平线创始人于凯在今年4月举办的百人电动汽车论坛上表示，ChatGPT给了他很大启发，“我们必须继续使用大数据、更大的数据、更大的模型，无监督地学习。

人类的驾驶尝试就像从大量无监督、无标签的自然文本中学习。

”他认为，每个驾驶员的驾驶控制序列就像我们的自然语言文本。

下一步，他想建立一个回归自动驾驶的大型语言模型。

理论上来说，这个想法是可行的，人工智能已经具备了学习的能力，根据自适应语言模型，机器会根据用户的反馈不断迭代优化，学习用户的习惯，然后改进模型，目前的ChatGPT就是这样的。

那么，机器学习驾驶员的驾驶习惯并不难。

特斯拉的影子模式将真实驾驶员的驾驶数据喂给机器学习后，通过比较人类驾驶员的行为来达到训练算法的目的。

GPT掀起了新一轮AI热潮，对业界的一个认知影响是，通过增加模型的参数规模，数据量呈指数级增长，这就是所谓的大模型。

达到某个临界点后，模型会突然变得非常聪明。

过去，模型在训练阶段所需的数据是手动标注的。

以自动驾驶为例，数据标注器通过大量的图像标注来告诉机器什么是猫，什么是狗，猫狗有多少种。

注释者就像机器的老师，一遍又一遍地教它理解世界。

问题是机器仍然不知道老师从未教过它们的东西。

通常情况下，特斯拉发生过很多次自动驾驶事故，其中车辆因机器无法识别而撞上了一辆翻倒的大卡车。

和高资本创始合伙人何玉华给深途举了一个例子：广州夏天阴雨天频繁，在一些光线昏暗的场景下，空中会出现大量飞虫。

当一辆汽车经过时，灯光照射到它身上，成千上万的飞虫可能会撞到汽车的前面。

在这种情况下，汽车的自动驾驶感知系统可能会将其误认为是一堵墙。

自动驾驶系统无法穷尽所有corner case（极端场景），这是其开发的一大难点。

ChatGPT 从整个网络捕获未标记的数据。

在自我监督学习中，数据本身被用作监督信号，而不是依赖于人类标记的标签。

有一天，人们发现，在消化这些数据的过程中，大模型突然有了举一反三的能力。

神话般的GPT无法打造出你梦想中的神车

那么，如果大型自动驾驶模型也能在无监督的情况下学习人类驾驶行为，不需要“老师”一步步教它，是不是意味着系统突然变成了“老司机”呢？ GPT“驱动”尚不可靠。

梦想是美好的，但实现梦想的路总是很艰难。

像ChatGPT这样的大型AI模型要想在自动驾驶领域发力，目前至少有以下几个问题需要解决。

首先是数据源。

ChatGPT的数据来源非常丰富，包括维基百科、书籍、新闻文章、科学期刊等，相当于整个网络的公共数据都是它的养料。

自动驾驶则不同。

驾驶员的驾驶数据和车辆行驶数据不公开，其中很多涉及隐私。

汽车制造商和自动驾驶公司各自独立运营，数据封闭不流通，数据获取困难。

没有数据，自动驾驶就像无源之水。

联想创投总裁何志强告诉深途，自动驾驶的核心是数据，数据对于训练模型非常重要。

像比亚迪这样的整车厂有数据，但算法还需要打磨。

“韦小力”等造车新势力擅长算法，但汽车销量却不够。

只有同时拥有数据和算法的公司才能充分利用大模型。

其次，系统的计算部署方式存在局限性。

余凯认为，OpenAI和ChatGPT都是在云端计算的。

云端有充足的能源供应和电力供应，也有非常好的系统。

然而，如果汽车依赖于电池和汽车的散热，那么这个挑战是巨大的，这意味着自动驾驶无法使用这么大的模型和这么大的计算量。

大模型对算力的消耗，让云计算厂商成为了这波AI热潮中最先收获红利的玩家。

大公司推出云计算也为大型模型开辟了道路。

但在汽车方面，这就会出现矛盾。

更大的问题是大型模型的可靠性还有待证明。

用过ChatGPT的人都知道，ChatGPT有时会胡说八道，有时是对的，有时是错的。

这在业内被称为幻觉，即产生根本没有来源的不真实内容的倾向。

大模特会编造内容，而不关心内容的真实性和准确性。

来源/pexels 聊天可以胡说八道，自动驾驶则不能。

任何不正确的输出都可能导致致命的后果。

“ChatGPT已经取得了长足的进步，但自动驾驶还没有到来，因为自动驾驶，尤其是无人驾驶，可能会做到零容错，这是生死攸关的问题。

”余凯表示。

曾在硅谷一家AI初创公司担任COO的龙志勇认为，不可控、不可预测、不可靠是大型模型商业化的最大威胁。

一个典型的症状就是大模型容易产生幻觉。

目前，自动驾驶系统要学会选择和区分，并稳定输出最优解并不现实。

一位人工智能公司内部人士告诉深途：“视觉感知在算法层面确实有很多突破。

但是对于汽车这样的场景要求太高，我个人认为不会有大的突破。

”短期可以关注特斯拉。

”不过最近科技圈有一个趋势，各种规模的公司都在试图利用GPT的热点。

一些汽车制造商已经宣布很快将应用类似于GPT的技术。

有很多很酷的概念让人困惑。

例如，一家传统车企旗下的自动驾驶公司发布了自动驾驶的大型生成模型。

该模型将用于训练自动驾驶，号称是“行业首创”。

一位长期关注智能汽车赛道的投资人询问一位行业领袖对该模式有何看法，对方回应四个字：“一派胡言”。

“这只是一个公关举措。

”投资人说要给深途评估一下。

自动驾驶会被推翻并重新发明吗？在特斯拉的带动下，加上今年兴起的AI浪潮，自动驾驶行业正逐渐向大模型、大算力、大数据靠拢。

大型车型对自动驾驶的影响还不够剧烈，但嗅觉敏锐的人们已经表现出了矛盾的态度。

就像特斯拉使用 Transformer 将多摄像头数据从图像空间转换到 BEV 空间时一样，不惜颠覆原有架构，重写算法。

目前大模型的应用也可能意味着原有的自动驾驶算法将被推翻并重新启动。

何志强认为，大型车型将对自动驾驶产生巨大影响。

以前自动驾驶用的很多小车型，现在都变成大车型了，可能还需要从头再来。

自动驾驶行业将重新洗牌。

一家AI芯片公司自动驾驶总监赵东翔告诉深途，整体端到端的改变相当于从头再来。

洗牌对新进入者来说是机会，对领导者来说是威胁。

弯道超车的故事经常发生在技术快速变革的时期。

在科技日新月异的时代，老航线投入越多，沉没成本可能就越大，扭亏为盈就越困难。

对于主机厂或者自动驾驶公司来说，拥抱一项新技术，不仅要考虑效果，还要考虑成本。

赵东翔表示，现阶段改变自动驾驶的技术路线没有任何意义。

“现在行业的技术能力还不错，大家花了这么多钱做了这么久，如果没有明显的提升，就没有动力去改变。

”“在去年底的AI DAY上，特斯拉将BEV升级为占用网络（Occupancy Network），其泛化能力进一步提升。

通过占用网络，特斯拉的自动驾驶感知系统不需要知道你可以判断是否需要回避，从而解决更多的长尾问题，无论技术路线如何，现在都在快速变化和迭代，过去的小模型可能会被大模型所取代。

而且现在的大型机型将来也可能会被一些新品种所取代，但无论如何，制造热点、制造噱头的做法不利于技术进步。

脚踏实地做产品。

”赵东翔说。

自动驾驶真正的“王炸”还远未到来。

我们要做的就是对每一轮技术变革保持敬畏之心。

神话般的 GPT 无法打造出你梦想中的神奇汽车。

但至少，改变已经发生了。

*标题图片来自《创：战纪》。

应受访者要求，赵东祥为化名。

站长声明

标签：

上一篇：醒醒吧，手机上的独立显示芯片≠电脑GPU

下一篇：余承东，重塑华为“复仇者联盟”

有传言称英特尔正在考虑出售媒体部门并退出互联网电视市场

英特尔正在与Verizon Communications进行谈判，可能会将服务出售给后者。　　据外媒报道，芯片制造商英特尔正在重新考虑其电视服务。据知情人士人士透露，该公司正在与Verizon Communications进行谈判，并可能将该服务出售给后者。　　虽然英特尔和Verizon之间的谈判已进入

06-18
【创业24小时】2022年4月12日

投融资昨天，国内市场共发生20起投资披露事件，其中企业服务6起（中控信息、无知智能、晓硕数科、Fit2Cloud飞智云、艾客）、奇宇数码）、电商零售案例4个（联艺、银沙科技、HEPROA、焦玛）、医疗健康案例4个（乐星、奕谱生物、伊柯夫、申基生物）、先进制造案例2个（美克盛能

06-17
凯客巴宣布完成6亿元B1轮融资

7月11日，凯客巴宣布完成6亿元B1轮融资。去年8月，凯客巴宣布正式从慧客集团分拆，独立获得5.5亿元A轮融资。

06-18
嘉能可计划上市前引入中投或在香港、伦敦上市

据香港媒体报道，早前有报道称瑞士商品交易所耀明嘉能可（嘉能可）计划在香港和伦敦上市。据外媒昨日报道，嘉能可近期引入中国投资公司和卡塔尔投资局主权投资基金进行洽谈，吸引1亿美元（约1亿港元）作为其伦敦上市的基本投资者。如果成功上市，将成为规模前十的公司之一。

06-18
我，一个三线城市的小中介，半年直播卖房7.5亿元

快手主播的“红旗屋”进入房地产行业仅三年时间。如今，我已经是河北沧州有名的“主播地产一哥”了。在成为房产经纪人之前，因生意失败而损失惨重的红旗，曾在家里颓废过一段时间。 2018年3月，他注意到直播卖房的机会。入职第一天，红旗就用快手拍下了自己手中的二手房资

06-18
投资界24小时营业｜Keep最快二季度赴美IPO；沈南鹏在两次会议期间提出了6项建议；李彦宏成立了生命科学公司

生命科学公司背后，李彦宏很少露面。投资界获悉，百图生物（北京）智能科技有限公司近期发生工商变更，新增个人股东李彦宏和达子县白瑞祥创业投资管理有限公司。股权渗透显示李彦宏持有通过直接和间接的方式持有百图生物40%的股份，是名副其实的幕后黑手。官方信息显示，这

06-17
Sora来到这个世界真的会更好吗？

去年初，ChatGPT横空出世，瞬间点燃全球科技圈。今年，科技圈再次传来重磅消息。 OpenAI发布了文生视频模型。 Sora，Sora可以根据文字提示生成长达60秒的视频。从公开的样张效果来看，该视频令人惊叹。从文字生成到文字生成视频，只用了一年的时间。谁也没想到生成式人工

06-17
LG专利曝光：正在研发透明可折叠触摸屏

近日，韩国LG公司的一份专利文件被曝光。专利文件显示，LG未来很可能推出一款配备可折叠显示屏的智能手机。更重要的是，LG打算使用的显示器不仅是可折叠的，而且是透明的。从专利文件来看，LG的可折叠显示屏看起来像一本书。左半部分似乎是一个透明的触摸屏。您可以清楚

06-17
【创业24小时】2022年8月15日

2022年8月15日过去48小时投融资中，国内市场共发生6起投资披露事件，2起先进制造（和鑫电子、华诚微波））、传统制造1个案例（衢州杭氧特种气体）、企业服务1个案例（新商安）、元宇宙1个案例（链盒）、区块链1个案例（CYANPUPPETS）。选定的功率器件产品开发商【和鑫电子

06-18
【创业24小时】2023年3月15日

投融资昨天，国内市场共发生13起投资披露事件，其中先进制造4起（富兰光学、帝晶半导体、浙江清悦科技、深宇宙环亮科技）、医疗健康案例3个（青岛盛德医养集团、福新科技、孔自力）、本地生活案例2个（招财猫能量茶、喜罐咖啡）、企业服务案例2个（耀明科技、乌干达）、1个汽

06-18
猫银河获数千万元新一轮融资，泡泡玛特独家投资方

据5月14日消息，泛二次元零售品牌“猫银河”完成新一轮融资融资数千万元，独家投资方泡泡玛特，本轮融资将用于门店体验优化、孵化和营销。公开资料显示，毛银河成立于2006年，主营洛丽塔、JK制服等泛二次元服装。银河猫以上游核心IP品牌资源为切入点，拥有“桃乐丝”、“幸

06-18
瑞典开发商宣布计划在该国建设1GW光伏项目

瑞典光伏开发商Helios Nordic Energy AB宣布计划在瑞典新增10个地面光伏项目。 “Helios Nordic Energy 正在招募合适的投资者来投资位于瑞典 SE3 黄金地段的四个太阳能园区，”该公司发言人向《光伏》杂志透露。 “这些项目的总容量约为90MW。 ”该开发商表示，这10个新项目位

06-08