首页 > 科技未来 > 内容

Sora模型争议背后

发布于:2024-06-17 编辑:匿名 来源:网络

与ChatGPT引发的“AI是否有意识”的讨论类似,OpenAI的新模型Sora让更多人认识到了“世界模型”的概念。

不同的是,这一次,AI圈的掌门人科学家以及研究人员悉数参与,掀起了“Sora是否是世界典范”的大争议。

争议源于Sora的技术报告。

在报告中,OpenAI将Sora定义为一个可以生成视频的世界模型(世界模拟器),并认为Sora的技术是构建通用世界模型的一种有前景的方法。

世界模型没有标准定义,但可以非常简单地理解。

第一次开车的成年人,过弯时自然会“知道”提前减速;孩子们只需要学习一小部分(母语)语言就可以掌握几乎全部语言;动物不懂物理,但会下意识地躲避从高处滚下来的石头。

AI科学家认为,人和动物会潜移默化地掌握世界的运行规律,从而能够“预测”接下来会发生什么并采取行动。

世界模型的研究就是为了让AI学会这种能力。

Sora可以生成看起来包含完整 3D 世界模型的逼真视频。

它支持切换镜头,同时保持屏幕内容一致,甚至可以按时间顺序向前或向后生成新的视频内容。

很多人认为,Sora学会了“预测”事物发展的能力,这也正是世界模式研究的目的。

然而,一直在研究世界模型的AI科学家和图灵奖获得者Yann LeCun认为,Sora的生成技术与世界模型的因果预测完全不同。

Sora不仅代价高昂,而且对于世界模式来说完全没有意义。

如今的人工智能拥有人类无法比拟的能力,但它很难被处于前沿的科学家称为“真正的智能”。

这样的差距是怎么产生的呢?通向“智能”的世界模型真的重要吗? “白痴天才” 在以ChatGPT为代表的生成式AI浪潮出现之前,AI领域经历了一场深度学习革命。

在这个过程中,卷积神经网络CNN大放异彩,引领机器视觉技术走向成熟。

如今的手机、电脑、各种互联网产品中的图像识别功能几乎都是由CNN驱动的。

杨立坤在20世纪80年代发明了CNN。

它模拟了人眼的视觉神经和大脑的视觉皮层神经之间的工作过程。

它可以识别图片中的视觉特征,并在当时用于识别手写字体。

CNN 在那时才真正成为主流。

随着GPU并行计算能力的提高、图像训练数据库ImageNet的建立以及强化学习算法的应用,各种条件已经成熟,使得CNN可以通过深度学习训练来提高图像识别能力,识别精度可达98%。

尤其是2008年,AlphaGo在围棋比赛中的技术震惊了所有人,一度让CNN名声大噪。

几乎与此同时,CNN催生了互联网科技公司的产品更新。

例如,搜索引擎具有搜索图像的功能,自动驾驶汽车可以“看到”行人,社交媒体平台可以自动过滤掉不符合标准的图像,并且可以搜索用户屏幕上的图像。

在上传的照片中圈出朋友的名字等。

如今,由 CNN 驱动的计算机视觉可以快速准确地识别数百万张面孔、汽车牌照和车型,并以人类无法做到的方式区分植物和动物的种类。

搭载AI识别功能的互联网产品为科技公司带来了超额收入。

然而,这样的识别能力从一开始就被证明是不够智能,甚至是脆弱的。

2016年的一篇论文揭示了深度神经网络容易被“欺骗”的特点。

实验发现,对于一张被AI成功识别的图片,如果只改变其中一个细微的细节,识别效果就会完全不同。

这一发现凸显出,虽然人工智能擅长识别图像中的物体,但它并没有像人类一样读取图像的内容,而只是提取图像中像素排列的数学特征。

Sora模型争议背后

这样的特性限制了计算机视觉的应用前景,自动驾驶就是一个典型的例子。

CNN广泛应用于自动驾驶中参与图像处理和目标识别任务。

自动驾驶公司投入了大量资源来标记车辆行驶过程中记录的数据,以训练深度神经网络。

然而,长尾问题一直阻碍着自动驾驶技术的突破。

具体来说,视觉算法往往很难识别训练数据中没有出现过的物体,车辆行驶过程中无法识别的可能性始终存在。

计算机科学家梅兰妮·米切尔称击败了世界上最好的国际象棋棋手的AlphaGo是“白痴天才”。

尽管AlphaGo拥有最先进的围棋技术,但它“没有任何思考、推理和计划能力”。

同时,与其他 CNN 神经网络一样,“它学到的能力没有一个是通用的,也没有一个是通用的”。

项目可以移动到任何其他任务”。

即使改变棋盘的形状或大小,AlphaGo的能力也会被抹去。

不仅仅是CNN,几乎所有基于深度学习训练的神经网络都存在类似的瓶颈,比如无法概括、缺乏理解、容易被“骗”等。

微草知库创始合伙人段永超认为,智能机器目前能做到的只是“最快猜测”,或者说“以速度取胜”,但与真正的人工智能还有巨大差距。

知识VS常识多年来,人工智能前沿研究一直致力于突破深度神经网络的瓶颈,让人工智能学会“理解”。

关键被认为是人类拥有的世界知识。

与书面知识不同,这种更接近直觉的知识构成了人类的常识。

通过掌握常识,人工智能可以根据当前情况预测接下来会发生什么。

近年来,不少AI技术走出实验室进入商业公司,并借助工程能力不断投入研究。

在这样的时刻,ChatGPT以生成技术应运而生,以大规模数据训练和算力投入实现了能力的“涌现”。

一夜之间,人工智能似乎获得了知识和理解。

《Sora》发布后不久,OpenAI CEO Sam Altman 发推称“规模法则由上帝决定”,强调人工智能能力指数级增长的关键是“规模”,这种增长是一股不可阻挡的力量。

一般的观点是,生成技术创建的大语言模型的核心是概率模型,它使用先前的值来预测与先前的值最相关的后续值。

这种能力的前提是模型掌握了大量的数据。

计算机科学家Stephen Wolfram在书《这就是ChatGPT》中直截了当地介绍了ChatGPT的原理:首先从互联网、书籍等获取人类创建的海量文本样本,然后训练神经网络生成与该文本“相似”的文本...令人惊奇且出乎意料的是,这个过程可以成功地生成与互联网上、书籍中的内容“相似”的文本...ChatGPT“仅仅是”从中积累的“传统智慧”的统计数据一些“连贯的文本线索”但是,学习大量文本知识的生成人工智能能否成为“真正的人工智能”的道路?他表示,大型语言模型有很多从书面文本中提取的背景知识,但缺乏人类拥有的常识,常识是我们与物理世界互动的结果,并没有体现在其中。

任何文本。

大型语言模型对底层现实没有直接的体验,因此所展示的常识性知识非常浅薄,在应用中可能与现实脱节。

? 你可以通过这样一个例子来理解杨丽坤的观点:大语言模型可以根据足球的材质、颜色等物理信息推导出足球被踢出后的轨迹。

这个推理过程不需要考虑物理力学的参数,而是基于训练数据中的概率。

通过大规模训练,大型模型在语言交流、图像和视频生成方面取得了意想不到的效果,但它们无法基于因果关系应用于解决现实生活中的问题。

这也是Sora是否为世界典范争论的焦点。

杨立坤认为,实现真正的智能突破并不靠规模,而是让AI在世界模型中学习常识。

在论文《A Path Towards Autonomous Machine Intelligence Version》中,杨立坤提出了关于世界模型架构的想法。

与通过先前值预测未来值的生成式架构不同,该思想侧重于预测先前值和后续值之间的抽象关系。

论文提到,人类或动物的大脑中似乎运行着一个对世界的模拟,称为世界模型。

该模型指导人类和动物对周围发生的事情做出良性预测。

例如,杨丽坤曾说过,婴儿在出生后的最初几个月是通过观察世界来学习基础知识的。

例如,如果他们看到一个物体下落,他们几乎就理解了重力。

这种预测接下来会发生什么的能力来自于常识,杨立坤认为这就是智能的本质。

基于论文中的想法,杨立坤提出了联合嵌入预测架构(JEPA),并帮助Meta发布了两个大型模型:I-JEPA和V-JEPA。

这两个模型分别在图像和视频中展示了它们的预测能力。

在V-JEPA模型的训练过程中,Meta屏蔽了视频的大部分内容,模型只显示了一小部分上下文。

他们发现,通过遮挡部分视频,可以迫使模型学习并更深入地了解场景。

整个过程就像老师给学生提问和解答,并要求学生还原得出答案的步骤。

V-JEPA可以预测短时间内图片前后的抽象变化。

例如,给定一张厨房切菜板的图片,它可以“恢复”制作三明治的过程。

现阶段,V-JEPA更像是一个技术演示,而且由于它只专注于学习抽象关系,选择性地忽略不相关的信息,因此三明治的外观很难被识别。

至此,Sora生成的图画充满了细节。

不过,业内人士在评价V-JEPA时表示,相比于Sora,V-JEPA更符合纯人工智能研究。

2月14日,在迪拜举行的世界政府峰会上,萨姆·奥尔特曼筹集7万亿美元的计划成为记者提问的热门话题。

出席峰会的杨丽坤一针见血地表示,当前的大语言模型是新一轮的炒作(Al Hype),这与过去五年每五年炒作一次是一样的。

目的是为初创公司筹集资金。

他认为,实现AGI的路径绝对不是AIGC路线,而是需要新的架构,这至少需要20年的时间。

不过,对于“纯人工智能研究”的评论,有回复认为,即使OpenAI的路线是错误的,也与其将要实现的商业价值无关。

就像杨立坤发明的CNN神经网络一样,尽管大家都知道它有重大缺陷,但它仍然改变了我们的生活。

【本文经投资界伙伴电厂授权。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。

Sora模型争议背后

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 原念科技完成新一轮融资,由中银国际、渤海产业基金联合领投,

    原念科技完成新一轮融资,由中银国际、渤海产业基金联合领投,

    据投资界10月18日消息,专业服务和信息产品提供商元念科技宣布完成新一轮融资,由中国银行领投。 国际和渤海产业基金联合领投,同创伟业、耀明资本、宽带资本跟投。 他们将在第一年投入新一代数字化转型和中台业务产品的研发和运营,并推动第一年完成中台架构下的新业务。 战

    06-18

  • 匿名用户被告,匿名聊天已被屏蔽,匿名社交树洞里到底藏着什么?

    匿名用户被告,匿名聊天已被屏蔽,匿名社交树洞里到底藏着什么?

    最近的两则有关“匿名”的新闻,让“匿名社交网络”这个沉寂了近两年的概念重新回到了公众的视野。 其中一条来自摩拜,因一名知乎网友“匿名爆料”,摩拜将知乎告上法庭。 昨晚有媒体爆料,摩拜创始人胡玮炜将北京知乎天下科技有限公司(“知乎”网站运营方)诉至法院,因为其

    06-17

  • 英特尔神秘晶圆厂计划曝光

    英特尔神秘晶圆厂计划曝光

    据消息人士透露,英特尔公司决定在俄亥俄州哥伦布地区新建一座大型计算机芯片工厂,这可能是该州历史上最大的经济发展项目。 克利夫兰网站和 Plain Dealer 本周早些时候首次报道了芯片工厂落户该州的消息,该州官员拒绝发表评论。 但消息人士称,英特尔尚未回应消息,正在与地

    06-08

  • 禾木公司完成数千万美元B轮融资,由高瓴创投领投

    禾木公司完成数千万美元B轮融资,由高瓴创投领投

    据投资界10月19日消息,禾木生物工程股份有限公司(以下简称“禾木公司”)近日宣布已完成数千万美元美元B轮融资,由高瓴创投领投,君联资本、三正健康投资等跟投。 皓月资本担任本轮融资独家投资方。 禾木公司是一家专注于血管介入领域创新解决方案的全球平台公司。 其目前

    06-18

  • 米淘黑五跨境电商再创新高,交易额超2480万笔

    米淘黑五跨境电商再创新高,交易额超2480万笔

    11月阿里巴巴、京东、唯品会等各大电商集体发力,双十一抢镜。 正当大家以为电商盛宴即将结束时,米淘全力打造跨境电商嘉年华。 虽然米淘成立仅一年,但其成长速度却令人瞠目结舌。 其CEO谢文斌目标明确,要占领电商行业的另一个宝库——跨境电商。 米淘微博公布的数据显示,

    06-18

  • 小米发布扫地机器人、大疆袖珍无人机曝光 -新智造周刊

    小米发布扫地机器人、大疆袖珍无人机曝光 -新智造周刊

    双十一尚未到来,各大电视品牌之间的战争却已提前打响。 这个金秋9月,各大电视品牌纷纷推出各自的品牌盛典,我们将见证新一轮的厮杀。 比如,微鲸在品牌建设日推出“比免费更超值”的超级折扣活动,PPTV推出日常促销活动,乐视网照常举办音乐粉丝节,看尚推出看尚品牌季,让

    06-18

  • 抖音音乐品牌升级,推出“Hot Galaxy”音乐人服务平台

    抖音音乐品牌升级,推出“Hot Galaxy”音乐人服务平台

    2月17日,抖音音乐开放平台宣布品牌升级,正式命名为“Hot Galaxy”,推出多项服务、宣传促销等。 这一举措帮助音乐人一站式管理作品,获得更多流量曝光机会,赋能音乐版权机构与音乐人可持续发展。 据介绍,抖音音乐开放平台的品牌升级主要涉及三个方面:多项基础服务、两大

    06-18

  • 1L瓶饮料,年轻人为何涉足?

    1L瓶饮料,年轻人为何涉足?

    《今日消费:肯德基疯狂星期四新款椒盐脆皮鸡4人份19.9元; 1瓶1L瓶康师傅冰红茶4.5元……”作为豆瓣吝啬女性联合会的一员,Viki一直知道自己在做什么,在自己的手册里记着自己的账和经验。 哪些钱值得花,哪些钱被砍掉?从会计中找出消费亮点也是她每天的乐趣。 “今天总结:

    06-18

  • Look Up U8售价公布:109.8万元,给你纯电动时代的“V12”

    Look Up U8售价公布:109.8万元,给你纯电动时代的“V12”

    距离1月5日发布已经过去9个多??月了,这期间比亚迪举办了一系列活动为“Look Up”品牌。 我们召开了一轮新闻发布会、沟通会,抹去了心中一个又一个问号。 今晚,洋王终于迈出了最后一步——公布挂牌价。 8万元,这是U8豪华版的最终价格,与预售价格完全一致。 经过九个月的宣

    06-21

  • 饿了么口碑新年宣布扩大一线员工15%

    饿了么口碑新年宣布扩大一线员工15%

    据投资界1月6日消息,继宣布实现新增就业1万人目标后提前提前宣布了新年新目标:2020年,招募规模再扩大15%。 % 一线员工。 据悉,此次扩招主要针对产品技术、商户服务、城市商业运营等岗位,以适应业务快速增长的需求,推动本地生活服务业更快数字化升级。 《人力资源和社会

    06-18

  • SEMI报告:2019年晶圆总出货量将下降6%,2020年恢复增长,2022年创新高

    SEMI报告:2019年晶圆总出货量将下降6%,2020年恢复增长,2022年创新高

    美国加州时间9月30日,根据SEMI年度半导体行业硅晶圆出货量预测,晶圆总出货量为预计较去年历史高位下降6%,2020年恢复增长,2020年再创新高。 硅片需求预测显示,2020年抛光和外延硅片出货量总计700万平方英寸,2020年000万平方英寸。 2018年,2020年500万平方英寸。 (见下

    06-06

  • 一场疫情如何照亮智能客服的过去、现在和未来?

    一场疫情如何照亮智能客服的过去、现在和未来?

    足不出户的便捷生活和配套生活服务、“密不透风”信息交互的远程教育/远程办公、在药物研发等场景表现突出的AI……疫情按下了加速键对于许多行业。 此外,还有一些“不为人知”的技术应用正在以另一种方式展现出它们的价值,比如智能客服。 群防群控综合排查的需要与人力短缺

    06-18