LP开始接受10年任期
06-17
与ChatGPT引发的“AI是否有意识”的讨论类似,OpenAI的新模型Sora让更多人认识到了“世界模型”的概念。
不同的是,这一次,AI圈的掌门人科学家以及研究人员悉数参与,掀起了“Sora是否是世界典范”的大争议。
争议源于Sora的技术报告。
在报告中,OpenAI将Sora定义为一个可以生成视频的世界模型(世界模拟器),并认为Sora的技术是构建通用世界模型的一种有前景的方法。
世界模型没有标准定义,但可以非常简单地理解。
第一次开车的成年人,过弯时自然会“知道”提前减速;孩子们只需要学习一小部分(母语)语言就可以掌握几乎全部语言;动物不懂物理,但会下意识地躲避从高处滚下来的石头。
AI科学家认为,人和动物会潜移默化地掌握世界的运行规律,从而能够“预测”接下来会发生什么并采取行动。
世界模型的研究就是为了让AI学会这种能力。
Sora可以生成看起来包含完整 3D 世界模型的逼真视频。
它支持切换镜头,同时保持屏幕内容一致,甚至可以按时间顺序向前或向后生成新的视频内容。
很多人认为,Sora学会了“预测”事物发展的能力,这也正是世界模式研究的目的。
然而,一直在研究世界模型的AI科学家和图灵奖获得者Yann LeCun认为,Sora的生成技术与世界模型的因果预测完全不同。
Sora不仅代价高昂,而且对于世界模式来说完全没有意义。
。
如今的人工智能拥有人类无法比拟的能力,但它很难被处于前沿的科学家称为“真正的智能”。
这样的差距是怎么产生的呢?通向“智能”的世界模型真的重要吗? “白痴天才” 在以ChatGPT为代表的生成式AI浪潮出现之前,AI领域经历了一场深度学习革命。
在这个过程中,卷积神经网络CNN大放异彩,引领机器视觉技术走向成熟。
如今的手机、电脑、各种互联网产品中的图像识别功能几乎都是由CNN驱动的。
杨立坤在20世纪80年代发明了CNN。
它模拟了人眼的视觉神经和大脑的视觉皮层神经之间的工作过程。
它可以识别图片中的视觉特征,并在当时用于识别手写字体。
CNN 在那时才真正成为主流。
随着GPU并行计算能力的提高、图像训练数据库ImageNet的建立以及强化学习算法的应用,各种条件已经成熟,使得CNN可以通过深度学习训练来提高图像识别能力,识别精度可达98%。
尤其是2008年,AlphaGo在围棋比赛中的技术震惊了所有人,一度让CNN名声大噪。
几乎与此同时,CNN催生了互联网科技公司的产品更新。
例如,搜索引擎具有搜索图像的功能,自动驾驶汽车可以“看到”行人,社交媒体平台可以自动过滤掉不符合标准的图像,并且可以搜索用户屏幕上的图像。
在上传的照片中圈出朋友的名字等。
如今,由 CNN 驱动的计算机视觉可以快速准确地识别数百万张面孔、汽车牌照和车型,并以人类无法做到的方式区分植物和动物的种类。
搭载AI识别功能的互联网产品为科技公司带来了超额收入。
然而,这样的识别能力从一开始就被证明是不够智能,甚至是脆弱的。
2016年的一篇论文揭示了深度神经网络容易被“欺骗”的特点。
实验发现,对于一张被AI成功识别的图片,如果只改变其中一个细微的细节,识别效果就会完全不同。
这一发现凸显出,虽然人工智能擅长识别图像中的物体,但它并没有像人类一样读取图像的内容,而只是提取图像中像素排列的数学特征。

这样的特性限制了计算机视觉的应用前景,自动驾驶就是一个典型的例子。
CNN广泛应用于自动驾驶中参与图像处理和目标识别任务。
自动驾驶公司投入了大量资源来标记车辆行驶过程中记录的数据,以训练深度神经网络。
然而,长尾问题一直阻碍着自动驾驶技术的突破。
具体来说,视觉算法往往很难识别训练数据中没有出现过的物体,车辆行驶过程中无法识别的可能性始终存在。
计算机科学家梅兰妮·米切尔称击败了世界上最好的国际象棋棋手的AlphaGo是“白痴天才”。
尽管AlphaGo拥有最先进的围棋技术,但它“没有任何思考、推理和计划能力”。
同时,与其他 CNN 神经网络一样,“它学到的能力没有一个是通用的,也没有一个是通用的”。
项目可以移动到任何其他任务”。
即使改变棋盘的形状或大小,AlphaGo的能力也会被抹去。
不仅仅是CNN,几乎所有基于深度学习训练的神经网络都存在类似的瓶颈,比如无法概括、缺乏理解、容易被“骗”等。
微草知库创始合伙人段永超认为,智能机器目前能做到的只是“最快猜测”,或者说“以速度取胜”,但与真正的人工智能还有巨大差距。
知识VS常识多年来,人工智能前沿研究一直致力于突破深度神经网络的瓶颈,让人工智能学会“理解”。
关键被认为是人类拥有的世界知识。
与书面知识不同,这种更接近直觉的知识构成了人类的常识。
通过掌握常识,人工智能可以根据当前情况预测接下来会发生什么。
近年来,不少AI技术走出实验室进入商业公司,并借助工程能力不断投入研究。
在这样的时刻,ChatGPT以生成技术应运而生,以大规模数据训练和算力投入实现了能力的“涌现”。
一夜之间,人工智能似乎获得了知识和理解。
《Sora》发布后不久,OpenAI CEO Sam Altman 发推称“规模法则由上帝决定”,强调人工智能能力指数级增长的关键是“规模”,这种增长是一股不可阻挡的力量。
。
一般的观点是,生成技术创建的大语言模型的核心是概率模型,它使用先前的值来预测与先前的值最相关的后续值。
这种能力的前提是模型掌握了大量的数据。
计算机科学家Stephen Wolfram在书《这就是ChatGPT》中直截了当地介绍了ChatGPT的原理:首先从互联网、书籍等获取人类创建的海量文本样本,然后训练神经网络生成与该文本“相似”的文本...令人惊奇且出乎意料的是,这个过程可以成功地生成与互联网上、书籍中的内容“相似”的文本...ChatGPT“仅仅是”从中积累的“传统智慧”的统计数据一些“连贯的文本线索”但是,学习大量文本知识的生成人工智能能否成为“真正的人工智能”的道路?他表示,大型语言模型有很多从书面文本中提取的背景知识,但缺乏人类拥有的常识,常识是我们与物理世界互动的结果,并没有体现在其中。
任何文本。
大型语言模型对底层现实没有直接的体验,因此所展示的常识性知识非常浅薄,在应用中可能与现实脱节。
? 你可以通过这样一个例子来理解杨丽坤的观点:大语言模型可以根据足球的材质、颜色等物理信息推导出足球被踢出后的轨迹。
这个推理过程不需要考虑物理力学的参数,而是基于训练数据中的概率。
通过大规模训练,大型模型在语言交流、图像和视频生成方面取得了意想不到的效果,但它们无法基于因果关系应用于解决现实生活中的问题。
这也是Sora是否为世界典范争论的焦点。
杨立坤认为,实现真正的智能突破并不靠规模,而是让AI在世界模型中学习常识。
在论文《A Path Towards Autonomous Machine Intelligence Version》中,杨立坤提出了关于世界模型架构的想法。
与通过先前值预测未来值的生成式架构不同,该思想侧重于预测先前值和后续值之间的抽象关系。
论文提到,人类或动物的大脑中似乎运行着一个对世界的模拟,称为世界模型。
该模型指导人类和动物对周围发生的事情做出良性预测。
例如,杨丽坤曾说过,婴儿在出生后的最初几个月是通过观察世界来学习基础知识的。
例如,如果他们看到一个物体下落,他们几乎就理解了重力。
这种预测接下来会发生什么的能力来自于常识,杨立坤认为这就是智能的本质。
基于论文中的想法,杨立坤提出了联合嵌入预测架构(JEPA),并帮助Meta发布了两个大型模型:I-JEPA和V-JEPA。
这两个模型分别在图像和视频中展示了它们的预测能力。
在V-JEPA模型的训练过程中,Meta屏蔽了视频的大部分内容,模型只显示了一小部分上下文。
他们发现,通过遮挡部分视频,可以迫使模型学习并更深入地了解场景。
整个过程就像老师给学生提问和解答,并要求学生还原得出答案的步骤。
V-JEPA可以预测短时间内图片前后的抽象变化。
例如,给定一张厨房切菜板的图片,它可以“恢复”制作三明治的过程。
现阶段,V-JEPA更像是一个技术演示,而且由于它只专注于学习抽象关系,选择性地忽略不相关的信息,因此三明治的外观很难被识别。
至此,Sora生成的图画充满了细节。
不过,业内人士在评价V-JEPA时表示,相比于Sora,V-JEPA更符合纯人工智能研究。
2月14日,在迪拜举行的世界政府峰会上,萨姆·奥尔特曼筹集7万亿美元的计划成为记者提问的热门话题。
出席峰会的杨丽坤一针见血地表示,当前的大语言模型是新一轮的炒作(Al Hype),这与过去五年每五年炒作一次是一样的。
目的是为初创公司筹集资金。
他认为,实现AGI的路径绝对不是AIGC路线,而是需要新的架构,这至少需要20年的时间。
不过,对于“纯人工智能研究”的评论,有回复认为,即使OpenAI的路线是错误的,也与其将要实现的商业价值无关。
就像杨立坤发明的CNN神经网络一样,尽管大家都知道它有重大缺陷,但它仍然改变了我们的生活。
【本文经投资界伙伴电厂授权。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-06
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态