淘宝饮品直播加“猛将”,拉飞哥首秀实现“一个小目标”
06-17
11月22日,由《财经》杂志、财经网、联合主办的“《财经》年度会议:预测与策略” 在北京举行。
商汤科技联合创始人、首席科学家王晓刚在会上发表了精彩演讲。
以下为部分演讲实录,投资界(ID:pedaily)整理: 通用人工智能和大模型是行业最重要的突破之一。
今天,我非常荣幸与大家分享通用人工智能给智能汽车领域带来的一些东西。
带来什么样的变化和发展机遇。
我们回顾过去十年人工智能的发展。
它从突破人眼、人类认知的工业应用红线出发。
2008年,商汤在人脸识别领域首次突破了肉眼的识别率,商汤科技由此诞生。
此后,一批人工智能应用陆续落地。
但也有一个问题。
在此过程中,需要针对每项任务专门训练模型。
今天你要问我这样的任务能不能完成。
答案通常是肯定的,但我必须再次收集训练样本。
开发AI系统需要更长的时间。
过去几年,我们做了统计。
像商汤这样的商用车型产量已经超过3万辆,这也意味着更多的定制化。
到了年底,ChatGPT的出现极大地改变了人工智能的范式。
基于非常强大的通用模型,可以完成很多通用的开放人工智能任务,这对于人工智能的大规模推广具有重要意义。
回顾过去几十年的发展,人工智能对算力的需求大幅增长。
过去几十年,我们一直处于小模型时代。
小样本、小尺度的模型参数远远大于样本和数据的供给。
然而,随着互联网时代的到来,人工智能已经登上了大舞台。
数据时代。
在数据量非常大的情况下,我们需要更大的模型、更多的参数来利用数据的价值。
2018年AlexNet深度学习的出现,带来了算力需求的巨大增长。
从AlexNet到Transformer,算力需求增长了一倍,从Bert到GPT-4,算力增长了数千倍。
目前,特斯拉用于自动驾驶的 GPU 数量为 0。
到明年初,其算力将增至10万。
Google和OpenAI都有巨大的算力作为支撑。
OpenAI的万级算力力量。
如今大车型的爆发是从年底开始的。
我们大模型的布局是从2018年开始的,2018年总部搬到上海的时候,我们就提出了在上海临港建立人工智能数据中心AIDC的要求。
当时,大家很难理解一家算法公司为何要如此投入,建设比较重的基础设施。
我们在这方面的累计投入已经超过1亿元。
年初的时候,全国有5万个A件,商汤就占了其中的1/5,1万个A件。
今天我们有30,000件高端A、A、H件。
这些为大型模型的研发提供了基础。
一个非常坚实的基础。
按照我们明年的计划,整体算力会提升2-3倍。
今天我们的计算能力达到了P,明年我们将达到10000P以上。
基于强大的软硬件基础设施,我们能够支持很多上层大型模型的开发。
如今,我们能够将高端 GPU 连接在一起,以进行高效的大型模型训练。
我们向合作伙伴开放了基础设施,以训练具有超过 5000 亿个参数的大型模型。
该基础设施可以同时运行超过 2 万个模型。
十亿规模的模型。
在此基础上,我们有了商汤每日新增的大模型体系,包括感知大模型。
2009年,我们发布了第一个感知大模型,10亿个参数的感知大模型。
2008年,我们发布了全球最强的十亿参数大模型。
参数大小的感知模型。
当时谷歌的大规模感知模型有超过1亿个参数。
此外,大型生成模型包括大型语言模型、文生图大型模型、大模态大型模型、决策智能、科学人工智能等,这些都是基于软硬件基础设施的。
在过去的五个月里,我们100多人的研发团队专注于大模型的开发。
超过10亿个参数的模型不止一次在我们的设施上运行,数百亿个参数的模型不止一次被训练。
我们在这些中型或小型模型上反复进行试验和错误训练。
在这个过程中我们积累了很多的know how,这有助于我们更好、更成功地实现千亿参数的训练。
今天我们看到大型模型的出现,不仅是作为聊天、交互的工具,更是作为强大的生产力工具。
我们发现我们的大型模型可以处理工具的调用、代理的交互以及机器人的控制。
今年5月,我们发布了第一个基于大语言模型的通用代理。
这个多面手代理可以做出更好的决策并规划长期和短期任务。
因为之前大家都有一个认知,认为人工智能可以更好地完成一些规则相对清晰的任务,比如Alpha Go,对于开放式任务来说更具挑战性。
对于我们的全能代理,我们就做了这样的实践。
在《我的世界》游戏中,我们需要将非常原子级的元素组合成物体和建筑物来构建整个世界。
有一个开放的任务。
在过去的几年里,OpenAI 在使用强化学习来完成这些任务时总共只解锁了 78 个任务。
我们基于大语言模型解锁了所有任务,这为未来的机器人和自动驾驶提供了非常广阔的空间。
你可以看到我们大模型和决策任务规划的强大实力。
今天我们的模型已经真正成为AI操作系统AI的大脑。
它可以调用其他工具、函数和第三方插件,包括代码生成。
让我举一些例子。
这显示了一个大型多模态模型。
过去,当我们使用很多视觉模型时,我们只能完成一些特定的视觉任务。
今天我们有一个大型的多式联运模型。
我们可以为图像和视频定义任何任务,并向它提出任何问题,它可以给我们丰富的答案。
例如,自动驾驶面临着非常复杂的场景,需要做出决策。
在决策判断方面,大模型可以帮助自动驾驶系统做出合理的决策,区分不同的场景。
我们的模型给出的反馈是,前方有红灯,有行人过马路,前方有车辆通讯,左右有静止车辆,后方出现救护车。
你应该避开救护车并让救护车先走。
在这种情况下,在很多因素组成的复杂环境中,我们的大模型将会给予自动驾驶系统更合理的决策。
这些都是很难根据现有的人工规则来编写自动驾驶决策逻辑,也很难完成。
如今,大型模型的出现可以帮助我们在没有高精度地图指导的情况下做出这样的判断。
我们可以看到过去一年一系列大型商汤模型的发布。
今年3月,GPT4是一个大型多模态模型。
在发布之前,我们开源了一个拥有 30 亿个参数的大型多模态模型。
也是当时业界开源的最强大的多模态模型。
4月份,我们发布了每日新增的大模型系统。
5月,全能代理取得突破性进展。
6月,语言大模型在各项比赛中超越GPT3.5。
6月,我们发布了全球第一个自动驾驶领域端到端的UniAD大模型,集感知、决策、推理、优化于一体,实现了第一个大模型,并荣获CVPR最佳论文。
这是近三十年来第一个专注于自动驾驶的CVPR模型。
关于该主题的*论文也是从 10,000 名候选人中选出的。
今年11月,我们将发布我们的世界模型,该模型将用于自动驾驶环境的生成和模拟等。
回到智能汽车领域,如今爵影智能汽车的核心业务就是座舱和云三位一体的开发。
核心业务围绕通用人工智能和大模型。
在自动驾驶领域,我们现在量产的是高速L2+。
未来试点将推广到城市地区试点。
城市地区的环境比高速公路复杂得多。
在这种情况下,就需要摆脱对高精度地图的依赖。
对于端到端的自动驾驶来说,用一种模型来完成整个自动驾驶模块,实现完全的数据驱动将是未来的发展趋势。
我们将基于UniAD工作实现端到端自动驾驶模型的量产。
在智能座舱领域,需要打造智能座舱的大脑,因为现有的智能座舱是由各个供应商提供一些单点的AI功能,主机厂根据一些规则形成产品的智能座舱体验。
整个体验比较平淡。
,人们称之为假AI。
配合大模型,可以自动调动智能座舱内各个AI的单点功能。
座舱内的数十个APP,包括座舱内的各种硬件,可以形成完整的智能座舱体验。
这一切都离不开AI云服务。
驾驶和座舱都需要数据闭环,包括大型模型的训练。
特斯拉拥有自己的 AIDC 数据中心。
到明年,特斯拉自身的算力将超过10000P,这些国内汽车制造商很难建设这种规模的基础设施,需要提前规划。
我们将向汽车制造商和生态合作伙伴开放商汤大型装置等基础设施。
对于整个大模型研发体系来说,从模型训练到模型推理部署再到云端集成,我们需要大幅降低推理成本。
在此基础上,大模型体系包括数据平台和数据生产管道。
要得到一个好的行业模型,无论是通用大模型还是行业大模型,数据的收集和清洗非常重要。
这样我们就可以提供一整套深入行业的数据生产管道。
再往上是函数调用、沙箱环境、知识融合、安全与价值对齐、混合专家系统等各个系列层,再往上支撑自动驾驶智能座舱车路协同的应用。
我们将把整个系统向我们的客户和合作伙伴开放。
在智能座舱领域,我们语言模型的核心是座舱大脑。
未来我们将基于此构建AI操作系统。
我们的多模态大模型可以集成舱内舱外各类传感器,提供全方位感知。
乘客和司机的需求。
此外,我们还有长期和短期记忆模块。
乘客的个人喜好、纪念日、时刻表都以插件文档的形式与大模型结合在一起。
这样,我们的模型就可以为成千上万的人实施。
在此基础上,我们使用AIGC内容生成模型来生成虚拟助手,并为数千人生成各种应用程序。
我们还可以通过大语言模型智能控制车辆的各种状态,从而实现智能座舱的整体解决方案。
基于该架构,过去几个月开发了一系列智能座舱应用,为我们的乘客带来全新的体验。
这方面的应用有很多。
我给大家举个例子,比如健康咨询。
因为我们在机舱里有很多传感器,所以我们可以主动获取人的健康指标,比如血压、心跳等,但是在大型车型中,过去这些指标只能存储在那里,而且很难实现自己的价值。
今天,有了大模型之后,我们可以根据这些指标的变化,主动触发与乘客、司机的互动。
当我们检测到健康状况时,我们可以提供健康咨询,也可以为救援电话提供紧急AI支持,还可以实现自动驾驶接管并将汽车停放在更安全的地方。
这种大型模型的出现可以实现与乘客和驾驶员的积极互动。

未来,从APP主动触发驾驶舱内大车型启动,到大车型通过感知客户和乘客的需求主动触发场景,提供主动、专业的服务。
未来,大型车型将在汽车中随处可见,形成非常好的局面。
与用户交互的体验。
智能驾驶未来的技术路线逐渐清晰。
我们以愿景为基础。
过去智能驾驶有各种传感器,包括激光雷达、摄像头等,未来比较明确,聚焦视觉,去掉激光雷达,大幅降低成本。
二是数据驱动。
过去,整个自动驾驶系统有感知、融合、定位、决策、调控等多个模块。
所有这些模块中,只有感知部分依赖于神经网络和数据驱动。
其他模块依赖于手动规则。
如今,UniAD的出现,实现了端到端的自动驾驶。
神经网络完成所有模块。
一旦所有模块都可以利用网络来实现,就可以实现数据驱动的驾驶。
因为过去自动驾驶中是靠工程师编写各种规则和补丁来解决各种情况,但现在可以通过数据形式由神经网络驱动。
可以看到,当每个模块通过网络串联并由数据驱动时,我们看到每个模块的性能都有显着的提升。
首先,纯粹的愿景会降低未来的成本。
其次,我们将摆脱对高精度地图的依赖,使自动驾驶能够在更广泛的范围内、以更低的成本实现,而不依赖于高精度地图的更新。
第三,可解释、安全、可靠、高度可迭代。
这展示了我们的最新工作,它是基于多模态大模型DriveMLM。
通过输入各类信息,我们的模型还可以给出自动驾驶每一个决策和操作背后的逻辑、推理和理由。
右边展示的是用自然语言来解释自动驾驶的行为。
今天的自动驾驶对我们来说并不是一个黑匣子,它背后是有逻辑的。
世界模型可以使用大型模型生成自动驾驶场景中非常接近现实的各种视频和各种传感器输出,因为未来的端到端自动驾驶解决方案严重依赖于数据驱动和数据训练。
今天我们可以自动生成,这些模拟环境将极大地促进训练和测试。
这也是我们的最新成果。
未来,大型车型将为智能汽车带来非常大的行业变革。
一是端到端的自动驾驶,二是基于智能座舱中形成的大模型的座舱大脑。
最后,我们的驾驶和座舱将逐渐深度融合。
,它们将实现在同一个芯片中,舱内外的传感器和数据可以零拷贝、极低延迟地传输,可以给我们带来产品层面的最佳体验。
因此,在大车型时代,对于智能汽车等能够实现人车交互、人机协同驾驶的场景,我们期望大车型能够成为自动驾驶中安全可靠的老司机,并且它可以学习各种驾驶行为。
和驾驶风格,在驾驶舱里可以是一个热情、懂我们的好管家。
它给智能汽车行业带来了深刻的改变,我们特别期待未来几年通过通用人工智能给我们的行业带来更大的改变。
这就是我的分享,谢谢大家! 【本文经授权发表,不代表投资界立场。
本平台仅提供信息存储服务。
】如有疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态