首页 > 科技未来 > 内容

Sora模型争议背后

发布于：2024-06-17 编辑：匿名来源：网络

与ChatGPT引发的“AI是否有意识”的讨论类似，OpenAI的新模型Sora让更多人认识到了“世界模型”的概念。

不同的是，这一次，AI圈的掌门人科学家以及研究人员悉数参与，掀起了“Sora是否是世界典范”的大争议。

争议源于Sora的技术报告。

在报告中，OpenAI将Sora定义为一个可以生成视频的世界模型（世界模拟器），并认为Sora的技术是构建通用世界模型的一种有前景的方法。

世界模型没有标准定义，但可以非常简单地理解。

第一次开车的成年人，过弯时自然会“知道”提前减速；孩子们只需要学习一小部分（母语）语言就可以掌握几乎全部语言；动物不懂物理，但会下意识地躲避从高处滚下来的石头。

AI科学家认为，人和动物会潜移默化地掌握世界的运行规律，从而能够“预测”接下来会发生什么并采取行动。

世界模型的研究就是为了让AI学会这种能力。

Sora可以生成看起来包含完整 3D 世界模型的逼真视频。

它支持切换镜头，同时保持屏幕内容一致，甚至可以按时间顺序向前或向后生成新的视频内容。

很多人认为，Sora学会了“预测”事物发展的能力，这也正是世界模式研究的目的。

然而，一直在研究世界模型的AI科学家和图灵奖获得者Yann LeCun认为，Sora的生成技术与世界模型的因果预测完全不同。

Sora不仅代价高昂，而且对于世界模式来说完全没有意义。

。

如今的人工智能拥有人类无法比拟的能力，但它很难被处于前沿的科学家称为“真正的智能”。

这样的差距是怎么产生的呢？通向“智能”的世界模型真的重要吗？ “白痴天才” 在以ChatGPT为代表的生成式AI浪潮出现之前，AI领域经历了一场深度学习革命。

在这个过程中，卷积神经网络CNN大放异彩，引领机器视觉技术走向成熟。

如今的手机、电脑、各种互联网产品中的图像识别功能几乎都是由CNN驱动的。

杨立坤在20世纪80年代发明了CNN。

它模拟了人眼的视觉神经和大脑的视觉皮层神经之间的工作过程。

它可以识别图片中的视觉特征，并在当时用于识别手写字体。

CNN 在那时才真正成为主流。

随着GPU并行计算能力的提高、图像训练数据库ImageNet的建立以及强化学习算法的应用，各种条件已经成熟，使得CNN可以通过深度学习训练来提高图像识别能力，识别精度可达98%。

尤其是2008年，AlphaGo在围棋比赛中的技术震惊了所有人，一度让CNN名声大噪。

几乎与此同时，CNN催生了互联网科技公司的产品更新。

例如，搜索引擎具有搜索图像的功能，自动驾驶汽车可以“看到”行人，社交媒体平台可以自动过滤掉不符合标准的图像，并且可以搜索用户屏幕上的图像。

在上传的照片中圈出朋友的名字等。

如今，由 CNN 驱动的计算机视觉可以快速准确地识别数百万张面孔、汽车牌照和车型，并以人类无法做到的方式区分植物和动物的种类。

搭载AI识别功能的互联网产品为科技公司带来了超额收入。

然而，这样的识别能力从一开始就被证明是不够智能，甚至是脆弱的。

2016年的一篇论文揭示了深度神经网络容易被“欺骗”的特点。

实验发现，对于一张被AI成功识别的图片，如果只改变其中一个细微的细节，识别效果就会完全不同。

这一发现凸显出，虽然人工智能擅长识别图像中的物体，但它并没有像人类一样读取图像的内容，而只是提取图像中像素排列的数学特征。

Sora模型争议背后

这样的特性限制了计算机视觉的应用前景，自动驾驶就是一个典型的例子。

CNN广泛应用于自动驾驶中参与图像处理和目标识别任务。

自动驾驶公司投入了大量资源来标记车辆行驶过程中记录的数据，以训练深度神经网络。

然而，长尾问题一直阻碍着自动驾驶技术的突破。

具体来说，视觉算法往往很难识别训练数据中没有出现过的物体，车辆行驶过程中无法识别的可能性始终存在。

计算机科学家梅兰妮·米切尔称击败了世界上最好的国际象棋棋手的AlphaGo是“白痴天才”。

尽管AlphaGo拥有最先进的围棋技术，但它“没有任何思考、推理和计划能力”。

同时，与其他 CNN 神经网络一样，“它学到的能力没有一个是通用的，也没有一个是通用的”。

项目可以移动到任何其他任务”。

即使改变棋盘的形状或大小，AlphaGo的能力也会被抹去。

不仅仅是CNN，几乎所有基于深度学习训练的神经网络都存在类似的瓶颈，比如无法概括、缺乏理解、容易被“骗”等。

微草知库创始合伙人段永超认为，智能机器目前能做到的只是“最快猜测”，或者说“以速度取胜”，但与真正的人工智能还有巨大差距。

知识VS常识多年来，人工智能前沿研究一直致力于突破深度神经网络的瓶颈，让人工智能学会“理解”。

关键被认为是人类拥有的世界知识。

与书面知识不同，这种更接近直觉的知识构成了人类的常识。

通过掌握常识，人工智能可以根据当前情况预测接下来会发生什么。

近年来，不少AI技术走出实验室进入商业公司，并借助工程能力不断投入研究。

在这样的时刻，ChatGPT以生成技术应运而生，以大规模数据训练和算力投入实现了能力的“涌现”。

一夜之间，人工智能似乎获得了知识和理解。

《Sora》发布后不久，OpenAI CEO Sam Altman 发推称“规模法则由上帝决定”，强调人工智能能力指数级增长的关键是“规模”，这种增长是一股不可阻挡的力量。

。

一般的观点是，生成技术创建的大语言模型的核心是概率模型，它使用先前的值来预测与先前的值最相关的后续值。

这种能力的前提是模型掌握了大量的数据。

计算机科学家Stephen Wolfram在书《这就是ChatGPT》中直截了当地介绍了ChatGPT的原理：首先从互联网、书籍等获取人类创建的海量文本样本，然后训练神经网络生成与该文本“相似”的文本...令人惊奇且出乎意料的是，这个过程可以成功地生成与互联网上、书籍中的内容“相似”的文本...ChatGPT“仅仅是”从中积累的“传统智慧”的统计数据一些“连贯的文本线索”但是，学习大量文本知识的生成人工智能能否成为“真正的人工智能”的道路？他表示，大型语言模型有很多从书面文本中提取的背景知识，但缺乏人类拥有的常识，常识是我们与物理世界互动的结果，并没有体现在其中。

任何文本。

大型语言模型对底层现实没有直接的体验，因此所展示的常识性知识非常浅薄，在应用中可能与现实脱节。

? 你可以通过这样一个例子来理解杨丽坤的观点：大语言模型可以根据足球的材质、颜色等物理信息推导出足球被踢出后的轨迹。

这个推理过程不需要考虑物理力学的参数，而是基于训练数据中的概率。

通过大规模训练，大型模型在语言交流、图像和视频生成方面取得了意想不到的效果，但它们无法基于因果关系应用于解决现实生活中的问题。

这也是Sora是否为世界典范争论的焦点。

杨立坤认为，实现真正的智能突破并不靠规模，而是让AI在世界模型中学习常识。

在论文《A Path Towards Autonomous Machine Intelligence Version》中，杨立坤提出了关于世界模型架构的想法。

与通过先前值预测未来值的生成式架构不同，该思想侧重于预测先前值和后续值之间的抽象关系。

论文提到，人类或动物的大脑中似乎运行着一个对世界的模拟，称为世界模型。

该模型指导人类和动物对周围发生的事情做出良性预测。

例如，杨丽坤曾说过，婴儿在出生后的最初几个月是通过观察世界来学习基础知识的。

例如，如果他们看到一个物体下落，他们几乎就理解了重力。

这种预测接下来会发生什么的能力来自于常识，杨立坤认为这就是智能的本质。

基于论文中的想法，杨立坤提出了联合嵌入预测架构（JEPA），并帮助Meta发布了两个大型模型：I-JEPA和V-JEPA。

这两个模型分别在图像和视频中展示了它们的预测能力。

在V-JEPA模型的训练过程中，Meta屏蔽了视频的大部分内容，模型只显示了一小部分上下文。

他们发现，通过遮挡部分视频，可以迫使模型学习并更深入地了解场景。

整个过程就像老师给学生提问和解答，并要求学生还原得出答案的步骤。

V-JEPA可以预测短时间内图片前后的抽象变化。

例如，给定一张厨房切菜板的图片，它可以“恢复”制作三明治的过程。

现阶段，V-JEPA更像是一个技术演示，而且由于它只专注于学习抽象关系，选择性地忽略不相关的信息，因此三明治的外观很难被识别。

至此，Sora生成的图画充满了细节。

不过，业内人士在评价V-JEPA时表示，相比于Sora，V-JEPA更符合纯人工智能研究。

2月14日，在迪拜举行的世界政府峰会上，萨姆·奥尔特曼筹集7万亿美元的计划成为记者提问的热门话题。

出席峰会的杨丽坤一针见血地表示，当前的大语言模型是新一轮的炒作（Al Hype），这与过去五年每五年炒作一次是一样的。

目的是为初创公司筹集资金。

他认为，实现AGI的路径绝对不是AIGC路线，而是需要新的架构，这至少需要20年的时间。

不过，对于“纯人工智能研究”的评论，有回复认为，即使OpenAI的路线是错误的，也与其将要实现的商业价值无关。

就像杨立坤发明的CNN神经网络一样，尽管大家都知道它有重大缺陷，但它仍然改变了我们的生活。

【本文经投资界伙伴电厂授权。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：中石化集团拟分拆中国石油化工股份有限公司赴港上市集资100亿港元

下一篇：非洲娱乐社交平台“Mochat”获百万元种子轮融资

LP开始接受10年任期

新的一幕正在悄然发生——“今年我们在筹集人民币基金，我们正在和LP讨论延长基金期限。 ”年末，华南本土一家知名创业投资机构募集资金，负责人向投资界透露，他计划将这只专注于硬科技投资的新基金周期从原来的7年延长至7年。年至10年。无独有偶，近期的风险投资家之一大

06-17
欢牛蛋糕屋完成近千万美元A轮融资，顺为资本独家投资

投资圈（ID：pedaily）据2月17日消息，原创甜品烘焙连锁品牌欢牛蛋糕屋宣布完成近美国融资1000万美元A轮融资。本轮融资，由顺为资本独家投资，指数资本担任独家财务顾问。本轮融资将主要用于门店扩张、供应链建设、品牌推广和团队建设。目前，国内烘焙市场已达到近亿规模，

06-18
东车日报 -理想汽车否认裁员计划 - FF收到通知：不符合继续上市标准 - 德州特斯拉工厂开始生产

介绍宏光MINIEV GAMEBOY版上市智能精灵#1亮相，外观延续Avita Co概念车设计品牌限量版比亚迪ATTO 3在澳门首秀并正式上市保时捷Safari谍照曝光德州特斯拉工厂动工，Cybertruck将于明年投产，补充高德利汽车回应网上有关裁员计划的传闻：假消息新研究发现电动滑板车受伤率比

06-21
台积电以A16新工艺争夺芯片霸主，为人工智能的未来做好准备

趣工程芯片制造龙头台积电（TSMC）推出了名为A16的新技术。此次发布标志着其每年生产新型超先进 1.6 纳米 (nm) 芯片的重要一步。虽然命名听起来与苹果在 iPhone 15 系列和 iPhone 14 Pro 上使用的 A16 处理器非常相似，但该处理器本身是由台积电制造的，所以不要混淆。该公

06-06
财经视频PaaS平台“飞虎互动”完成过亿元B+轮融资

财经视频PaaS平台“飞虎互动”今日宣布完成新一轮过亿元融资，领投由顺为资本投资，老股东继续跟投，财务顾问元一资本担任独家投资者。本轮融资后，飞虎将继续完善平台产品，服务泛金融客户和海外金融客户。将进一步开发创新业务产品，持续引领业务视频化潮流，赋能金融机

06-17
上半年全球新增独角兽44家，中国仅4家 -全球资讯

创头条Crunchbase整理的数据显示，今年截至目前，全球新增未上市独角兽企业44家。这组公司的总估值迄今已筹集近1亿美元，平均每家公司3亿美元。这44家企业来自11个国家，其中美国27家、中国4家、英国3家、以色列和印度各2家。这些公司中，估值最高的三家分别是英国电动汽

06-18
AI携手生物科技，微生态制药能否实现弯道超车？

今年9月22日，辉凌制药宣布，其药物RBX的有效性和安全性已获得美国FDA咨询委员会的一致批准，离获批上市越来越近了。微生物药物领域即将进入商业化阶段。自2008年美国启动人类微生物组计划以来，微生态医学及微生物相关技术的发展进入加速阶段。在政策推动下，涌现出Evelo

06-17
【创业24小时】2024年1月11日

2024年1月11日各大行业公司十字路口YY直播：从3年“欢聚”到百度“回归”点击查看科大讯飞分拆方案医疗业务并上市：后者年营收5亿，有星火医疗大模式支撑。 HMD和诺基亚都逃不过“七年之痒”。后者可能会彻底退出圈子。单击查看新的 Apple Pencil 专利，或为 Vision Pro 做

06-18
新能源重卡企业“威都科技”完成数亿元A轮融资，十个月获三轮融资

据投资界（ID：pedaily）6月2日消息，新能源重卡公司维都科技近日宣布获得数亿元A轮融资。本轮融资由方源资本、耀明资本领投，合肥创新投资跟投，老股东融庆物流、金沙江创投等继续跟投。据悉，本轮融资将用于进一步推进维都科技重卡产品研发、市场拓展和产业整合，加速旗

06-17
武汉大学与深圳市探讨集成电路产业合作

武汉大学近日，深圳市与武汉大学召开交流座谈会，共商集成电路产业合作。受微电子学院徐红星院士委托，院长助理刘伟教授、半导体委员会负责人、校友企业代表等详细介绍了微电子学院的历史沿革、发展现状、创新资源、科研成果等。武汉大学微电子学科产业.在集成电路领域的经

06-06
蔚来融资史上的两笔神技

李斌再次施展魔法。日前，蔚来宣布获得阿布扎比投资机构CYVN 22亿美元战略投资。加上CYVN战7月向蔚来投资11亿美元，蔚来今年累计获得约1亿人民币融资。这是每个人都想得到的来自中东的钱。在大多数人的记忆中，蔚来上一次如此被资本救赎还是在年初。 2016年，蔚来病入膏肓

06-17
皮肤科医疗公司耀铭科技完成数千万元A轮融资，宏盛资本领投

据投资界1月25日消息，近日，皮肤科互联网医疗公司耀铭科技完成领域，完成数千万元A轮融资。本轮融资由弘盛资本领投，元芯科技（妙手医生）跟投。优麦博士APP是优麦科技创业时打造的第一个产品。它定位于在线学习和协作。目前，平台用户数量已突破3万，覆盖全国90%以上的

06-18