2018年,全球半导体资本支出将首次突破1000亿美元
06-06
多模态 AI 正处于爆发前夕。
从GPT-4V的“惊艳亮相”,到AI视频生成工具Pika 1.0的“爆红亮相”,再到Google Gemini的“全面*”,多模态AI是一个关键词。
尽管皮卡1.0的宣传视频被一些用户认为是“炒作”,或者谷歌承认Gemini的演示视频是“剪辑过的”,但不可否认的是,它们丰富了人们对多模态AI的想象。
“之前很多公司都在开发大型文本模型,GPT-4V的出现意味着多模态大模型可以实现。
毫无疑问,明年大家都会开发多模态AI。
原因很简单,因为OpenAI表明这条路是可行的。
”微博新技术研发负责人、首席人工智能科学家张俊林表示。
在“落地”成为行业主旋律的当下,多模态人工智能正在走向场景化、实用化、商业化。
例如,在医疗领域,通过图像、录音和病历文本的结合,可以提供更准确的诊断和治疗方案;在交通领域,图像和传感器数据可以结合,带来更智能、更安全的自动驾驶体验;在教育领域,结合文字、声音、视频,呈现更多互动的教育内容。
然而,业界一直在提及的多模态概念,远不如近期几款现象级产品的演示那么直观:多模态不仅能为AI应用带来更多可能性,也是实现通用人工智能的重要路径。
1.皮卡:实力还是炒作? 最近的AI圈饭局上,大家谈论多模态AI时,经常会提到一家硅谷创业公司——Pika Labs。
该公司的初创团队只有4人。
创始人兼CEO郭文静拥有“女学霸”、“斯坦福辍学创业”、“上市公司创始人之女”等个人标签; Pika已三轮融资筹集1万美元,估值在2-3亿美元之间;投资者包括 Quora 创始人兼首席执行官 Adam D'angelo、OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼首席执行官 Clem Delangue、YC 合伙人 Daniel Gross 等人。
综合起来,可以说皮卡的火爆在于它的发展过程,讲述了一个让技术、商业、资本、用户都感兴趣的故事,赶上了好时光。
“今年6月之后,对AI生成图片的投资变得更加保守,很多投资者会更加关注AI生成视频。
从事AI生成视频研究的濮林(化名)告诉甲子光年,自从AIGC概念提出以来,无论是AI生成图片还是AI生成视频都非常受欢迎。
不过,基于技术的发展,业界预计,到今年年底,将会有一个很好的AI生成视频的演示。
“这个demo足以吸引大量流量,甚至出圈。
有了这样的底气,投资逻辑才能持续下去。
可以说皮卡占据了很好的时间点。
” Pika 1.0上线那天,科技圈大佬都来支持他。
自然语言处理领域知名学者克里斯托弗·曼宁(Christopher Manning)盛赞Pika的两位创始人郭文晶和孟晨林推动了优质视频的快速发展; OpenAI科学家Andrej Karpathy在社交平台转发Pika 1.0的演示内容并表示:“每个人都可以成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样”Pika 1.0在圈内走红,是密不可分的来自官方宣传视频,视频中用户只需输入“马斯克穿着太空服,3D动画”,就会生成如下视频,皮卡1.0官方宣传视频中的其他演示也可以描述为:视频发布后,有媒体迫不及待地表示“AI生成视频的ChatGPT时刻即将到来”,但Pika真的像7月份宣传视频中展示的那样“惊艳”吗?今年,Pika Labs 在 Discord 上推出了服务器,短短几个月就获得了 50 万用户。
不过,如果你想使用最新的 Pika 1.0,你可能还需要在官网上排队一段时间。
许多用户发布了测试视频。
目前,Pika 1.0只能生成3秒的显示视频。
在社区中,用户A输入提示词:一条龙在天上飞。
这个表达比较清晰,但是输出的视频结果与龙无关,更像是克苏鲁生物。
用户B输入了更详细的提示:女牧师 - dnd角色 - 战斗姿势 - 角色选择默认动画 - 相机放大 - 动作1(女牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 相机变焦 - 动作1)。
此次Pika 1.0输出的视频结果总体上符合要求,但细节上仍然存在明显缺陷,人物双手的构图“惨不忍睹”。
不过,“AI不会算数”是一个长期存在的问题,并不是皮卡独有的“缺陷”。
但也有一些案例取得了惊人的结果。
例如,用户C提供图片并输入提示文字:搁浅的中世纪船、狂暴的大海、雨、悬崖、慢动作、-motion 2 -gs22 -camera pan right 图片:1 Attachment (搁浅的中世纪船) Boats、汹涌的波浪、雨、悬崖、慢动作、动作2、gs22-镜头向右平移,图片:附件1),生成的视频效果更加精致。
AI 教育家 Chase Lean 在尝试 Pika 1.0 后难掩兴奋之情。
他在社交媒体上直言,这是“他用过的最好的AI视频生成器”。
Prinx一直关注Pika及相关产品。
从演示和实际使用体验来看,Pika 1.0已经处于“行业第一水平”。
对于AI生成视频工具来说,最简单的标准就是“生成的内容是否真实”。
从技术上来说,皮卡在单帧画面真实感、审美品质、视频中的动作感等方面都表现出色。
在文森视频、图胜视频、镜头移动方面也有不错的能力。
除了算法之外,社区活动也被认为是初创公司核心竞争力的一部分,包括维护Discord社区。
目前,Pika的社区活跃度在业内名列前茅。
在图像视频生成方面,业界主流的技术路线是Diffusion Model。
不过,Pika联合创始人孟晨林在接受采访时透露:“Pika不能完全看做是一种扩散模式,我们开发了很多新的东西,是一种新的模式。
”不过,在濮林看来,Pika 与其他 AI 生成视频工具(如 Runway)“没有本质的技术区别”,部分自媒体对 Pika 与 Runway 的对比分析“纯粹是经验归纳” ”。
这也会引出一个问题。
长期关注AI领域的投资人陈毅(化名)向“甲子光年”表达了自己的担忧:“扩散模型并不智能。
主要是根据以往图像的经验来拟合符合人类审美的图像。
,不具备理解语言和智能思考的能力,而当我们使用ChatGPT时,我们会感觉我们正在和一个真人交谈,尽管这个“人”的智商可能高或低。
”陈毅认为,虽然皮卡的走红与产品的实力密不可分,但更多的是“炒作”的成分。
“就像炒土豆丝一样,每个人使用的厨房用具和调料可能有很大不同,但生材料最终是相同的。
土豆。
”陈毅比喻道,“理解语言的根本问题还没有解决,图像学还缺乏飞跃的时刻。
在回答“AI视频生成何时迎来GPT时刻?”这个问题时,Pika团队还是比较清醒的。
孟辰林认为,当前的视频世代正处于与GPT-2类似的时期,“明年很有可能会出现GPT时刻”。
“巨大的进步。
”皮卡的能力在某种程度上被高估了,但皮卡带来的破圈效应却是从业者乐见的。
普林五年前进入人工智能生成视频领域,在过去的六个月里,这是他感觉这个领域“最热门”的时期。
虽然他也觉得皮卡“宣传上比较激进”,但从专业角度来看,他认为四人团队制作皮卡“没问题”。
2、争夺AI视频生成高地 从技术角度来看,有业内学者认为,相比文本、代码、图像生成,文本转视频才是AIGC的“高地”,因为存在巨大的需求该领域的计算能力。
、缺乏高质量数据集、可控性差等挑战。
濮林认为,AI视频生成领域还存在一个问题,那就是产学研之间的差距往往导致研究人员难以第一时间应用研究成果。
事实上,由于不同的视频制作者,如电影、动画、短剧等,其制作流程不同,因此研究可能只涉及一种特定的制作方式,如文字转视频。
普林最近也涉足该行业。
通过与电影制片人的交流进行研究并不断优化自己的研究方向。

“解决问题的关键在于开发的工具能否真正满足视频制作者的需求并契合他们的实际工作流程。
”濮林告诉《甲子光年》,“当你的研究更接近生产时,就会产生更大的经济价值。
”商汤科技数字娱乐事业部副总裁李兴业表示,在多模态AI中,文盛视频门槛较高。
“现在一些广告视频的制作,只需要输入文字就可以生成视频了,当然效率还没有那么高,视频像素可以达到4K或者8K,但是动画效果还是比较差的。
”简单的。
”在AI视频生成领域,尽管Pika的关注度越来越高,但它面临着越来越激烈的竞争,Runway推出了Motion Brush,一种动态画笔刷新功能,用户只需轻轻一划即可将图像变成动态视频。
此外,Runway与电影制作公司密切合作,发布了Stable Video Diffusion视频模型,用户可以根据需要调整各种参数,例如迭代步数、重画范围等,帮助创作者精确控制。
图片生成过程,包括风格、姿势、线条等特征;此外,现象级图形工具Midjourney也在开发视频功能;Meta也开源了两个新的视频编辑功能,AnimateDiff。
、MAKEAVIDEO、MagicAnimate等也在布局AI视频生成赛道 3、多模态AI的想象力 对于投资者来说,多模态AI也是今年下半年关注的焦点。
长期关注AI领域投资的心资本合伙人吴秉建认为,大语言模型只是AI版图的一部分。
基本模型的基本原理是“预测下一个token(预测下一个单词)”。
这个原理可能会带来其他模型。
“如果未来 Transformer 或者另一套算法能够准确预测下一帧,那么视频模型就会问世,就有机会解锁下一级别的内容平台;如果接下来一系列的动作序列能够被准确预测,那么具身智能一旦模型出来,万能机器人就解锁了;如果能准确预测下一个蛋白质序列,那么蛋白质模型就出来了,新药研发就可以再上一个大台阶;向前迈进一步;如果能够准确预测下一个像素,那么3D模型就会出来,一旦完成,元宇宙的构建就会解锁。
”吴秉建说。
在吴秉健看来,一旦版图全面解锁,就会出现多种基础模型,很多方向的边际成本将趋近于零,不断解锁新应用层的机会。
国内AI厂商也在加大多模态AI的投入。
昆仑万维在海外进行了AI多模态场景探索,其中包括AI游戏(考拉俱乐部)。
它已在德国科隆游戏展上亮相,预计明年上半年进行测试。
“这不仅包括普通对话、大模型赋能的AI NPC,还包括3D生成等AIGC技术。
尤其是在AI 3D生成方面,我们做得比较好。
”昆仑万维董事长兼首席执行官方瀚介绍。
《甲子光年》也关注到了一些科技巨头的入局。
例如,清华大学计算机系教授、清华大学人工智能研究院副院长朱军创办的盛树科技,专注于多模态层面,致力于打造可控多模态通用大模型;原字节跳动王长虎,前视觉技术负责人、AI实验室主任,创立爱视科技,专注于生成式AI的视觉多模态算法平台。
虽然大型多模态模型使AI能够根据图像内容推理复杂问题,但它仍然无法像视觉感知系统那样精确定位图像对应的指令的目标区域。
因此,香港中文大学贾嘉亚团队提出了LISA(Large Language Instructed Segmentation Assistant)多模态大模型。
LISA通过引入
LISA技术方案概述,图片来源:受访者提供 在垂直应用场景中,云智声采用了医学知识增强的山海大模型。
北京友谊医院打造的门诊病历生成系统可以在不改变医生咨询方式的情况下使用。
通过记录医患对话,提取关键咨询信息并生成病历,将医生从书写病历的工作中解放出来,把更多的时间留给患者。
谷歌最近推出的Gemini也展示了多模态模型在各种应用场景中的潜在价值。
真正打通物理世界与数字世界的壁垒,关键在于有效处理多模态AI能力。
利用底层感知能力来导出操作,以实现与物理世界交互的最自然的方式。
在多模式人工智能爆发之前,不要温和地进入这个美好的夜晚。
*应受访者要求,文中濮林、陈毅均为化名【本文经投资界合伙人微信公众号:甲子光年授权。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-08
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态