首页 > 科技未来 > 内容

索拉爆科技圈：真神依然是制造焦虑的机器

发布于：2024-06-18 编辑：匿名来源：网络

周鸿祎再次放出嚣张言论。

他说，“AGI（通用人工智能）的实现将从10年缩短到1年”，而其背后的原因只是因为1分钟短视频。

注意，这个女人的名字叫小梅，她正在向我们走来。

虽然身在日本热闹的街头，但小美总是回头看，似乎在向观众暗示镜头外还隐藏着不为人知的秘密。

▲图：主角登场。

镜头拉近，可以清晰地看到小美修长的脖颈和美丽的下颌线，让整个画面充满了令人无法抗拒的神秘与美丽。

▲图：详细展示其实整个短视频，从街景到行人，包括小美，在现实中根本不存在。

这是OpenAI最新产品Sora制作的演示视频，正是这个视频让周鸿祎预测AGI发展将加速10倍。

用传统方法制作这样一个1分钟的视频，成本是非常高的。

想要遇到如此理想的天气，除了选外景、选演员、提前构镜头、设置机位等，还需要赌运气。

夕阳转瞬即逝，如果你犯了错误，第二天就得重来一遍。

拍摄完成后，后期制作非常耗时。

不仅要调整画面的色调，还要仔细检查画面是否有瑕疵，比如眼镜反射的画面是否会造成模糊，路人之间是否有不协调的元素，但当空采取行动时，整个过程（字面上）就是一句话的事情。

Sora官网已经发布了十几部“精心制作”的高清示范短片。

从真实人物到3D动画，所有短片都是一句话生成的。

▲图：Sora 展示视频科技圈的朋友看完这些短片后集体表示“炸了”；圈内朋友说，“AI已经达到这个水平了吗？”；还有摄影圈的朋友说，虽然看我和人类摄影师还是有一点差距，但他们还是被Sora的效果震惊了，开始和我讨论除了送外卖还能做什么工作他们失业后。

但如果我们抛开网络上对Sora铺天盖地、近乎幻想的赞誉，跳出官网演示视频的魅力，我们会发现Sora本质上是生成式AI在视频领域的一个应用，一个扩散变压器模型。

至于Sora官方宣传的所有功能，比如通过文字或图片生成高清短视频，以及扩展生成更长的视频，其实很多公司都在做。

比较知名的产品包括已经商用的Runway、免费的Pika，以及尚处于改进阶段的Google Lumiere和Meta Make-A-Video。

还有一些不太知名的产品如Leonardo、FinalFrame等。

这里有一个很大的问题：为什么Sora是行业中突围出来的？真的像网上说的那么神奇吗？ 01.更真实的效果，OpenAI再次爆发。

1月24日，谷歌研究人员发布了Lumiere的演示视频。

图像质量非常高清晰度和现实。

▲图：Lumiere 生成的游泳乌龟视频。

除了生成真实图片外，Lumiere还可以实现一键装扮、根据图片和提示文字生成动态视频等功能。

▲图：一键换装 ▲图：图片生成视频 2月15日，刚刚庆祝情人节的谷歌在疯狂星期四推出了下一代AI产品Gemini 1.5。

在之前的演示视频中，Gemini 展示了其在图像识别和多轮对话方面令人难以置信的能力。

在演示视频中，演示者画了一个鸭子般的轮廓供双子座识别，双子座表示感觉像一只鸟。

▲图：双子座示范但当示范者画出波浪时，双子座表示，根据它的长脖子、长嘴和会游泳的能力，判断它是一只鸭子。

▲图：双子座示范随后示范者拿着一只玩具鸭子，询问双子座是用什么材料制成的。

双子座说它看起来可能是橡胶或塑料的。

当演示者挤压橡皮鸭时，双子座立即确定它是由软橡胶制成的。

▲图：双子座示范。

正当很多业内人士认为谷歌今年将凭借Lumiere和Gemini登上头条时，OpenAI仅凭借Sora就轻松获得了更高的关注度。

索拉这个词很有趣。

它在韩语中意为海螺壳，在日语中意为天空，在芬兰语中意为砾石。

很难不让人想起《海底两万里》的鹦鹉螺、《沙丘》以及“我们的目标是星星和大海”的英雄志向。

Sora 是一个比 Lumiere（法语，光）更常见、更短、更容易发音的名字。

就像当年GPT的故事一样，Sora也是通过碾压竞争对手而获胜的。

与同类产品相比，Sora能够捕捉提示词的精髓，巧妙地生成多个角色和特定动作的场景。

有人做过对比，用同样的提示词，让AI生成一只黄白相间的猫，它似乎在花园里追逐着什么东西，快乐地奔跑着。

最终结果的差异是非常明显的。

▲图：不同AI产品效果对比。

上面 Sora 生成的视频看起来非常真实。

即使在跑步时，猫脸颊上的毛发也会随着头部一起起伏。

在下面由 Pika、Runway、Leonardo 和 FinalFrame 生成的视频中，这只猫不仅看起来不真实，甚至动作也非常奇怪。

在生成视频的长度方面，Sora 也击败了竞争对手。

Sora 可以生成 1 分钟的视频，而 Pika 为 3 秒，Runway 为 4 秒，Lumiere 为 5 秒。

最重要的是，Sora有望解决生成式AI的一个痛点，即相同的提示词通常不会生成相同的结果。

例如，对于提示词“黄白猫”，不同视频中会出现不同的黄色和白色外观。

替补猫。

结果是无法通过拼接创建更长的视频。

尽管Sora一亮相就展现出远超同龄人的肌肉，但Sora并没有选择像Pika和Runway那样向公众开放。

相反，它采取了类似于Google和Meta的保守策略，先发布官方公告来吊起大家的胃口。

，然后在内部慢慢测试，等待合适的时机，然后对外开放。

因为有很多关键问题没有人找到好的解决方案。

02. 当人工智能变得顽皮时，人类就会头痛。

生成式AI有着“不遵循物理定律”的先天问题，就连看似非常接近现实世界的Sora也不例外。

这个问题实在是太明显了，OpenAI 也懒得去掩盖，只是大方的说了出来。

从内测用户泄露的视频中可以发现，Sora无视物理定律的意愿非常高，而这种意愿受到“必须还原物理世界”规则的约束，很容易生成场景就像人类的梦想一样。

有过做梦经历的朋友应该都有这样的体会：梦明明是虚幻的，但你在梦中的感受却很“真实”。

下面是一个非常典型的例子。

▲图：空的梦想物理。

注意。

视频中的杯子莫名其妙的跳了起来，在桌子上侧翻了。

杯子跳起来的瞬间，杯子里的液体就渗透到了杯底，铺满了桌子。

最终，杯子连同里面剩余的液体一起，融化在了桌面上。

▲图：像杯子一样融入桌面的视频显然不能用在正式场合。

很有可能只会出现在B站的鬼片里。

我来告诉你一个学了3年动画的人是如何因为一个毕业作品而被老师解雇的。

一个轰动一时的故事。

另外，Sora对计算能力的要求也很高。

索拉爆科技圈：真神依然是制造焦虑的机器

下面的视频展示了低计算能力和高计算能力之间的差距有多么巨大。

▲图：算力差距。

如果你想要高计算能力，你就得花更多的钱。

以Runway为例，个人版收费模式分为三个级别。

标准版本每月 15 美元。

它可以制作1秒的Gen-1视频或44秒的Gen-2视频，相当于每秒1-2.4元。

将收取额外费用。

Pro 版本每月 35 美元，* 版本每月 95 美元。

用户如果想要加快视频制作效率，还需要购买额外的“时间”。

03.能力越大，危险就越大。

生成式人工智能在社会层面存在几个常见问题。

首先是欺诈问题。

人工智能生成的视频越真实，就越容易伪造。

最直接的解决方案是给人工智能生成的内容打上特殊的标签，以便平台能够将其与真人拍摄的视频区分开来。

OpenAI 和 Google 确实在这么做。

但水印的问题在于，它们可能在共享过程中被恶意删除。

例如，您可以通过截图或录制屏幕来获取不带任何水印的视频副本。

其次，还有版权问题。

版权问题比假冒更为复杂。

它不仅是一个宏大的形而上的概念，而且与每个创作者的个人利益密切相关。

目前关于版权的争论主要集中在人工智能与人类的协调过程上。

比如，人工智能通过学习其他艺术家的风格进行的创作与人类同样的创作有本质的区别吗？更直接的问题是，人工智能是来帮我赚钱的，还是来偷我钱的？这些问题每一个都比较难以解决，这意味着Sora至少在短时间内不会向公众开放。

从某种角度来看，这对于视频制作者来说或许是个好消息。

至少他们有更多的缓冲时间来思考如何应对空接下来的冲击。

无论如何，Sora向公众开放只是时间问题。

至于是否会像周鸿祎预测的那么快，或许还存在疑问。

但有一点是毋庸置疑的：那时的索拉将会比现在更加强大。

【本文由投资界合作伙伴微信公众号授权：零态LT。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：社交电商云集获1.2亿美元B轮融资，鼎晖投资领投

下一篇：姚茗茶完成5.25亿融资，由奈雪茶

21上半年北美风险投资同比增长116%至1550亿美元，新增独角兽161家

今日头条Crunchbase数据显示，北美初创企业2019年共融资1亿美元上半年，创下历史新纪录。同比、环比增速分别为66%、66%。同时，还添加了新的独角兽。后期融资近两个季度，北美后期融资蓬勃发展。融资数量和总额均有所增加，金额已超过全年总额。今年上半年，北美地区后

06-17
如何对隐形人使用抖音？

“你看这烤鸭，外焦里嫩，现在下单还有优惠哦！”盛先生“听”着主播在电话里大力喊叫，轻敲屏幕两下，成功下单。对于很多人来说，这只是通过直播“剁手”的常见经历带货。然而，对于以盛先生为代表的视障群体来说，这样“轻松”的使用场景曾经是一种奢侈。曾几何时，盲人

06-18
AI智慧庭院解决方案提供商“海森堡机器人”获数百万美元天使轮融资，由DCM

投资界（ID：pedaily）领投 7月12日消息，AI智慧庭院解决方案提供商“海森堡机器人”（以下简称“Heisenberg Robotics”）海森堡机器人公司）获数百万美元天使轮融资，本轮由DCM领投，江门创投跟投，万石资本担任本轮融资的唯一投资方。融资将用于继续加大AI视觉算法等核心技

06-17
海尔民族时尚家电节：3大差异化优势赋能全场景智慧生活

随着文化自信时代的到来，不难发现我们总是买进与民族时尚相关的品牌。国民奶糖大白兔与气味图书馆联手推出“大白兔”香水，还没闻到就吸引了无数网友的支持。此前，RIO六神鸡尾酒17秒售空一瓶，民族风情罐1天售空56罐。宣布售空……每一个民族品牌潮流都能引发我们的购买

06-18
乐准智信完成Pre-A轮3500万元融资，三诺生物领投

乐准智信近日宣布完成1万元Pre-A轮融资。本轮融资由三诺生物领投，深瑞享源跟投，北拓资本负责交易。

06-18
15亿，上海半导体设备材料二期基金完成首关

投资圈-解码LP消息，近日，普尔科投资宣布旗下子公司上海半导体设备材料产业投资管理有限公司（简称“半导体设备材料”）新一期基金已完成首通，首通规模15亿元，并已在中国基金会协会登记，启动第一批项目投资。该基金为上海半导体设备与材料私募股权投资基金（简称“二期基

06-18
国行版PS5起售价3099元，黄牛生意可要“爽”了

4月29日，PlayStation中国发布会终于来了。自2019年11月19日全球发售以来，由于疫情和产能不足，PS5的价格一直居高不下，甚至首批价格被炒至近10元。今天发布的国行版PS5无疑是很多玩家“走出溢价汪洋”的希望。发布会上公布了国行版PS5的官方售价。光驱版售价人民币1,00

06-21
抖音收藏功能即将上线，首批权限将向知识创造者开放

据投资界9月9日消息，为了更好地支持创作者传授知识和用户学习知识，抖音有新产品行动。 9月9日，在“DOU知识计划”2.0发布会上，抖音宣布即将推出收藏功能，让知识短视频的创造和学习更加系统化。据抖音产品经理介绍，第一期的收藏功能支持抖音PC端创作、App端查看。功能上

06-17
SEMI发布半导体晶圆设备信息安全标准加速智能制造

据台媒《经济日报》报道，国际半导体工业协会（SEMI）于12月28日发布首个半导体晶圆设备信息安全标准，预计将加快高技术制造业安全化、智能化、数字化步伐。据台湾媒体报道，国际半导体工业协会（SEMI）于12月28日发布首个半导体晶圆设备安全标准，有望加快高科技制造安全化

06-08
智联招聘正式提交IPO文件并在纽交所挂牌上市，

智联招聘正式递交IPO文件并在纽交所挂牌上市。对于 ZPIN。发行价格区间为每股12.5-14.5美元。

06-18
氪空间完成10亿元融资，IDG资本、歌斐资产、逸星资本联合领投，

据投资界5月15日消息，氪空间宣布完成10亿元融资，由IDG资本、歌斐资产、耀明资本领投。共同主导投资。本次融资后，氪空间确立了打造“全周期企业办公服务商”的新战略。在新战略指导下，氪空间将完成从“联合办公”到“综合办公服务+新资产管理”的商业模式升级，氪空间

06-18
Twitter靠什么统治国家？数字先锋爱沙尼亚启动AI治理

爱沙尼亚是一个波罗的海国家，拥有1万人口和1万公顷土地，其中一半是森林。然而，对于一个小国来说，爱沙尼亚在国际舞台上却令人印象深刻。该国政府已将数字化视为节省成本和平衡权力的手段，吸引了世界各地领导人、学者和风险投资家的关注。据报道，数字化进程每年为爱沙

06-18