“失物追踪”专家Tile被收购,曾批评苹果不公平竞争
06-21
周鸿祎再次放出嚣张言论。
他说,“AGI(通用人工智能)的实现将从10年缩短到1年”,而其背后的原因只是因为1分钟短视频。
注意,这个女人的名字叫小梅,她正在向我们走来。
虽然身在日本热闹的街头,但小美总是回头看,似乎在向观众暗示镜头外还隐藏着不为人知的秘密。
▲图:主角登场。
镜头拉近,可以清晰地看到小美修长的脖颈和美丽的下颌线,让整个画面充满了令人无法抗拒的神秘与美丽。
▲图:详细展示 其实整个短视频,从街景到行人,包括小美,在现实中根本不存在。
这是OpenAI最新产品Sora制作的演示视频,正是这个视频让周鸿祎预测AGI发展将加速10倍。
用传统方法制作这样一个1分钟的视频,成本是非常高的。
想要遇到如此理想的天气,除了选外景、选演员、提前构镜头、设置机位等,还需要赌运气。
夕阳转瞬即逝,如果你犯了错误,第二天就得重来一遍。
拍摄完成后,后期制作非常耗时。
不仅要调整画面的色调,还要仔细检查画面是否有瑕疵,比如眼镜反射的画面是否会造成模糊,路人之间是否有不协调的元素,但当空采取行动时,整个过程(字面上)就是一句话的事情。
Sora官网已经发布了十几部“精心制作”的高清示范短片。
从真实人物到3D动画,所有短片都是一句话生成的。
▲图:Sora 展示视频 科技圈的朋友看完这些短片后集体表示“炸了”;圈内朋友说,“AI已经达到这个水平了吗?”;还有摄影圈的朋友说,虽然看我和人类摄影师还是有一点差距,但他们还是被Sora的效果震惊了,开始和我讨论除了送外卖还能做什么工作他们失业后。
但如果我们抛开网络上对Sora铺天盖地、近乎幻想的赞誉,跳出官网演示视频的魅力,我们会发现Sora本质上是生成式AI在视频领域的一个应用,一个扩散变压器模型。
至于Sora官方宣传的所有功能,比如通过文字或图片生成高清短视频,以及扩展生成更长的视频,其实很多公司都在做。
比较知名的产品包括已经商用的Runway、免费的Pika,以及尚处于改进阶段的Google Lumiere和Meta Make-A-Video。
还有一些不太知名的产品如Leonardo、FinalFrame等。
这里有一个很大的问题:为什么Sora是行业中突围出来的?真的像网上说的那么神奇吗? 01.更真实的效果,OpenAI再次爆发。
1月24日,谷歌研究人员发布了Lumiere的演示视频。
图像质量非常高清晰度和现实。
▲图:Lumiere 生成的游泳乌龟视频。
除了生成真实图片外,Lumiere还可以实现一键装扮、根据图片和提示文字生成动态视频等功能。
▲图:一键换装 ▲图:图片生成视频 2月15日,刚刚庆祝情人节的谷歌在疯狂星期四推出了下一代AI产品Gemini 1.5。
在之前的演示视频中,Gemini 展示了其在图像识别和多轮对话方面令人难以置信的能力。
在演示视频中,演示者画了一个鸭子般的轮廓供双子座识别,双子座表示感觉像一只鸟。
▲图:双子座示范 但当示范者画出波浪时,双子座表示,根据它的长脖子、长嘴和会游泳的能力,判断它是一只鸭子。
▲图:双子座示范 随后示范者拿着一只玩具鸭子,询问双子座是用什么材料制成的。
双子座说它看起来可能是橡胶或塑料的。
当演示者挤压橡皮鸭时,双子座立即确定它是由软橡胶制成的。
▲图:双子座示范。
正当很多业内人士认为谷歌今年将凭借Lumiere和Gemini登上头条时,OpenAI仅凭借Sora就轻松获得了更高的关注度。
索拉这个词很有趣。
它在韩语中意为海螺壳,在日语中意为天空,在芬兰语中意为砾石。
很难不让人想起《海底两万里》的鹦鹉螺、《沙丘》以及“我们的目标是星星和大海”的英雄志向。
Sora 是一个比 Lumiere(法语,光)更常见、更短、更容易发音的名字。
就像当年GPT的故事一样,Sora也是通过碾压竞争对手而获胜的。
与同类产品相比,Sora能够捕捉提示词的精髓,巧妙地生成多个角色和特定动作的场景。
有人做过对比,用同样的提示词,让AI生成一只黄白相间的猫,它似乎在花园里追逐着什么东西,快乐地奔跑着。
最终结果的差异是非常明显的。
▲图:不同AI产品效果对比。
上面 Sora 生成的视频看起来非常真实。
即使在跑步时,猫脸颊上的毛发也会随着头部一起起伏。
在下面由 Pika、Runway、Leonardo 和 FinalFrame 生成的视频中,这只猫不仅看起来不真实,甚至动作也非常奇怪。
在生成视频的长度方面,Sora 也击败了竞争对手。
Sora 可以生成 1 分钟的视频,而 Pika 为 3 秒,Runway 为 4 秒,Lumiere 为 5 秒。
最重要的是,Sora有望解决生成式AI的一个痛点,即相同的提示词通常不会生成相同的结果。
例如,对于提示词“黄白猫”,不同视频中会出现不同的黄色和白色外观。
替补猫。
结果是无法通过拼接创建更长的视频。
尽管Sora一亮相就展现出远超同龄人的肌肉,但Sora并没有选择像Pika和Runway那样向公众开放。
相反,它采取了类似于Google和Meta的保守策略,先发布官方公告来吊起大家的胃口。
,然后在内部慢慢测试,等待合适的时机,然后对外开放。
因为有很多关键问题没有人找到好的解决方案。
02. 当人工智能变得顽皮时,人类就会头痛。
生成式AI有着“不遵循物理定律”的先天问题,就连看似非常接近现实世界的Sora也不例外。
这个问题实在是太明显了,OpenAI 也懒得去掩盖,只是大方的说了出来。
从内测用户泄露的视频中可以发现,Sora无视物理定律的意愿非常高,而这种意愿受到“必须还原物理世界”规则的约束,很容易生成场景就像人类的梦想一样。
有过做梦经历的朋友应该都有这样的体会:梦明明是虚幻的,但你在梦中的感受却很“真实”。
下面是一个非常典型的例子。
▲图:空的梦想物理。
注意。
视频中的杯子莫名其妙的跳了起来,在桌子上侧翻了。
杯子跳起来的瞬间,杯子里的液体就渗透到了杯底,铺满了桌子。
最终,杯子连同里面剩余的液体一起,融化在了桌面上。
▲图:像杯子一样融入桌面的视频显然不能用在正式场合。
很有可能只会出现在B站的鬼片里。
我来告诉你一个学了3年动画的人是如何因为一个毕业作品而被老师解雇的。
一个轰动一时的故事。
另外,Sora对计算能力的要求也很高。

下面的视频展示了低计算能力和高计算能力之间的差距有多么巨大。
▲图:算力差距。
如果你想要高计算能力,你就得花更多的钱。
以Runway为例,个人版收费模式分为三个级别。
标准版本每月 15 美元。
它可以制作1秒的Gen-1视频或44秒的Gen-2视频,相当于每秒1-2.4元。
将收取额外费用。
Pro 版本每月 35 美元,* 版本每月 95 美元。
用户如果想要加快视频制作效率,还需要购买额外的“时间”。
03.能力越大,危险就越大。
生成式人工智能在社会层面存在几个常见问题。
首先是欺诈问题。
人工智能生成的视频越真实,就越容易伪造。
最直接的解决方案是给人工智能生成的内容打上特殊的标签,以便平台能够将其与真人拍摄的视频区分开来。
OpenAI 和 Google 确实在这么做。
但水印的问题在于,它们可能在共享过程中被恶意删除。
例如,您可以通过截图或录制屏幕来获取不带任何水印的视频副本。
其次,还有版权问题。
版权问题比假冒更为复杂。
它不仅是一个宏大的形而上的概念,而且与每个创作者的个人利益密切相关。
目前关于版权的争论主要集中在人工智能与人类的协调过程上。
比如,人工智能通过学习其他艺术家的风格进行的创作与人类同样的创作有本质的区别吗? 更直接的问题是,人工智能是来帮我赚钱的,还是来偷我钱的? 这些问题每一个都比较难以解决,这意味着Sora至少在短时间内不会向公众开放。
从某种角度来看,这对于视频制作者来说或许是个好消息。
至少他们有更多的缓冲时间来思考如何应对空接下来的冲击。
无论如何,Sora向公众开放只是时间问题。
至于是否会像周鸿祎预测的那么快,或许还存在疑问。
但有一点是毋庸置疑的:那时的索拉将会比现在更加强大。
【本文由投资界合作伙伴微信公众号授权:零态LT。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态