首页 > 科技未来 > 内容

被高估的 Pika,被低估的多模态 AI

发布于:2024-06-18 编辑:匿名 来源:网络

多模态 AI 正处于爆发前夕。

从GPT-4V的“惊艳亮相”,到AI视频生成工具Pika 1.0的“爆红亮相”,再到Google Gemini的“全面*”,多模态AI是一个关键词。

尽管皮卡1.0的宣传视频被一些用户认为是“炒作”,或者谷歌承认Gemini的演示视频是“剪辑过的”,但不可否认的是,它们丰富了人们对多模态AI的想象。

“之前很多公司都在开发大型文本模型,GPT-4V的出现意味着多模态大模型可以实现。

毫无疑问,明年大家都会开发多模态AI。

原因很简单,因为OpenAI表明这条路是可行的。

”微博新技术研发负责人、首席人工智能科学家张俊林表示。

在“落地”成为行业主旋律的当下,多模态人工智能正在走向场景化、实用化、商业化。

例如,在医疗领域,通过图像、录音和病历文本的结合,可以提供更准确的诊断和治疗方案;在交通领域,图像和传感器数据可以结合,带来更智能、更安全的自动驾驶体验;在教育领域,结合文字、声音、视频,呈现更多互动的教育内容。

然而,业界一直在提及的多模态概念,远不如近期几款现象级产品的演示那么直观:多模态不仅能为AI应用带来更多可能性,也是实现通用人工智能的重要路径。

1.皮卡:实力还是炒作? 最近的AI圈饭局上,大家谈论多模态AI时,经常会提到一家硅谷创业公司——Pika Labs。

该公司的初创团队只有4人。

创始人兼CEO郭文静拥有“女学霸”、“斯坦福辍学创业”、“上市公司创始人之女”等个人标签; Pika已三轮融资筹集1万美元,估值在2-3亿美元之间;投资者包括 Quora 创始人兼首席执行官 Adam D'angelo、OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼首席执行官 Clem Delangue、YC 合伙人 Daniel Gross 等人。

综合起来,可以说皮卡的火爆在于它的发展过程,讲述了一个让技术、商业、资本、用户都感兴趣的故事,赶上了好时光。

“今年6月之后,对AI生成图片的投资变得更加保守,很多投资者会更加关注AI生成视频。

从事AI生成视频研究的濮林(化名)告诉甲子光年,自从AIGC概念提出以来,无论是AI生成图片还是AI生成视频都非常受欢迎。

不过,基于技术的发展,业界预计,到今年年底,将会有一个很好的AI生成视频的演示。

“这个demo足以吸引大量流量,甚至出圈。

有了这样的底气,投资逻辑才能持续下去。

可以说皮卡占据了很好的时间点。

” Pika 1.0上线那天,科技圈大佬都来支持他。

自然语言处理领域知名学者克里斯托弗·曼宁(Christopher Manning)盛赞Pika的两位创始人郭文晶和孟晨林推动了优质视频的快速发展; OpenAI科学家Andrej Karpathy在社交平台转发Pika 1.0的演示内容并表示:“每个人都可以成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样”Pika 1.0在圈内走红,是密不可分的来自官方宣传视频,视频中用户只需输入“马斯克穿着太空服,3D动画”,就会生成如下视频,皮卡1.0官方宣传视频中的其他演示也可以描述为:视频发布后,有媒体迫不及待地表示“AI生成视频的ChatGPT时刻即将到来”,但Pika真的像7月份宣传视频中展示的那样“惊艳”吗?今年,Pika Labs 在 Discord 上推出了服务器,短短几个月就获得了 50 万用户。

不过,如果你想使用最新的 Pika 1.0,你可能还需要在官网上排队一段时间。

许多用户发布了测试视频。

目前,Pika 1.0只能生成3秒的显示视频。

在社区中,用户A输入提示词:一条龙在天上飞。

这个表达比较清晰,但是输出的视频结果与龙无关,更像是克苏鲁生物。

用户B输入了更详细的提示:女牧师 - dnd角色 - 战斗姿势 - 角色选择默认动画 - 相机放大 - 动作1(女牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 相机变焦 - 动作1)。

此次Pika 1.0输出的视频结果总体上符合要求,但细节上仍然存在明显缺陷,人物双手的构图“惨不忍睹”。

不过,“AI不会算数”是一个长期存在的问题,并不是皮卡独有的“缺陷”。

但也有一些案例取得了惊人的结果。

例如,用户C提供图片并输入提示文字:搁浅的中世纪船、狂暴的大海、雨、悬崖、慢动作、-motion 2 -gs22 -camera pan right 图片:1 Attachment (搁浅的中世纪船) Boats、汹涌的波浪、雨、悬崖、慢动作、动作2、gs22-镜头向右平移,图片:附件1),生成的视频效果更加精致。

AI 教育家 Chase Lean 在尝试 Pika 1.0 后难掩兴奋之情。

他在社交媒体上直言,这是“他用过的最好的AI视频生成器”。

Prinx一直关注Pika及相关产品。

从演示和实际使用体验来看,Pika 1.0已经处于“行业第一水平”。

对于AI生成视频工具来说,最简单的标准就是“生成的内容是否真实”。

从技术上来说,皮卡在单帧画面真实感、审美品质、视频中的动作感等方面都表现出色。

在文森视频、图胜视频、镜头移动方面也有不错的能力。

除了算法之外,社区活动也被认为是初创公司核心竞争力的一部分,包括维护Discord社区。

目前,Pika的社区活跃度在业内名列前茅。

在图像视频生成方面,业界主流的技术路线是Diffusion Model。

不过,Pika联合创始人孟晨林在接受采访时透露:“Pika不能完全看做是一种扩散模式,我们开发了很多新的东西,是一种新的模式。

”不过,在濮林看来,Pika 与其他 AI 生成视频工具(如 Runway)“没有本质的技术区别”,部分自媒体对 Pika 与 Runway 的对比分析“纯粹是经验归纳” ”。

这也会引出一个问题。

长期关注AI领域的投资人陈毅(化名)向“甲子光年”表达了自己的担忧:“扩散模型并不智能。

主要是根据以往图像的经验来拟合符合人类审美的图像。

,不具备理解语言和智能思考的能力,而当我们使用ChatGPT时,我们会感觉我们正在和一个真人交谈,尽管这个“人”的智商可能高或低。

”陈毅认为,虽然皮卡的走红与产品的实力密不可分,但更多的是“炒作”的成分。

“就像炒土豆丝一样,每个人使用的厨房用具和调料可能有很大不同,但生材料最终是相同的。

土豆。

”陈毅比喻道,“理解语言的根本问题还没有解决,图像学还缺乏飞跃的时刻。

在回答“AI视频生成何时迎来GPT时刻?”这个问题时,Pika团队还是比较清醒的。

孟辰林认为,当前的视频世代正处于与GPT-2类似的时期,“明年很有可能会出现GPT时刻”。

“巨大的进步。

”皮卡的能力在某种程度上被高估了,但皮卡带来的破圈效应却是从业者乐见的。

普林五年前进入人工智能生成视频领域,在过去的六个月里,这是他感觉这个领域“最热门”的时期。

虽然他也觉得皮卡“宣传上比较激进”,但从专业角度来看,他认为四人团队制作皮卡“没问题”。

2、争夺AI视频生成高地 从技术角度来看,有业内学者认为,相比文本、代码、图像生成,文本转视频才是AIGC的“高地”,因为存在巨大的需求该领域的计算能力。

、缺乏高质量数据集、可控性差等挑战。

濮林认为,AI视频生成领域还存在一个问题,那就是产学研之间的差距往往导致研究人员难以第一时间应用研究成果。

事实上,由于不同的视频制作者,如电影、动画、短剧等,其制作流程不同,因此研究可能只涉及一种特定的制作方式,如文字转视频。

普林最近也涉足该行业。

通过与电影制片人的交流进行研究并不断优化自己的研究方向。

被高估的 Pika,被低估的多模态 AI

“解决问题的关键在于开发的工具能否真正满足视频制作者的需求并契合他们的实际工作流程。

”濮林告诉《甲子光年》,“当你的研究更接近生产时,就会产生更大的经济价值。

”商汤科技数字娱乐事业部副总裁李兴业表示,在多模态AI中,文盛视频门槛较高。

“现在一些广告视频的制作,只需要输入文字就可以生成视频了,当然效率还没有那么高,视频像素可以达到4K或者8K,但是动画效果还是比较差的。

”简单的。

”在AI视频生成领域,尽管Pika的关注度越来越高,但它面临着越来越激烈的竞争,Runway推出了Motion Brush,一种动态画笔刷新功能,用户只需轻轻一划即可将图像变成动态视频。

此外,Runway与电影制作公司密切合作,发布了Stable Video Diffusion视频模型,用户可以根据需要调整各种参数,例如迭代步数、重画范围等,帮助创作者精确控制。

图片生成过程,包括风格、姿势、线条等特征;此外,现象级图形工具Midjourney也在开发视频功能;Meta也开源了两个新的视频编辑功能,AnimateDiff。

、MAKEAVIDEO、MagicAnimate等也在布局AI视频生成赛道 3、多模态AI的想象力 对于投资者来说,多模态AI也是今年下半年关注的焦点。

长期关注AI领域投资的心资本合伙人吴秉建认为,大语言模型只是AI版图的一部分。

基本模型的基本原理是“预测下一个token(预测下一个单词)”。

这个原理可能会带来其他模型。

“如果未来 Transformer 或者另一套算法能够准确预测下一帧,那么视频模型就会问世,就有机会解锁下一级别的内容平台;如果接下来一系列的动作序列能够被准确预测,那么具身智能一旦模型出来,万能机器人就解锁了;如果能准确预测下一个蛋白质序列,那么蛋白质模型就出来了,新药研发就可以再上一个大台阶;向前迈进一步;如果能够准确预测下一个像素,那么3D模型就会出来,一旦完成,元宇宙的构建就会解锁。

”吴秉建说。

在吴秉健看来,一旦版图全面解锁,就会出现多种基础模型,很多方向的边际成本将趋近于零,不断解锁新应用层的机会。

国内AI厂商也在加大多模态AI的投入。

昆仑万维在海外进行了AI多模态场景探索,其中包括AI游戏(考拉俱乐部)。

它已在德国科隆游戏展上亮相,预计明年上半年进行测试。

“这不仅包括普通对话、大模型赋能的AI NPC,还包括3D生成等AIGC技术。

尤其是在AI 3D生成方面,我们做得比较好。

”昆仑万维董事长兼首席执行官方瀚介绍。

《甲子光年》也关注到了一些科技巨头的入局。

例如,清华大学计算机系教授、清华大学人工智能研究院副院长朱军创办的盛树科技,专注于多模态层面,致力于打造可控多模态通用大模型;原字节跳动王长虎,前视觉技术负责人、AI实验室主任,创立爱视科技,专注于生成式AI的视觉多模态算法平台。

虽然大型多模态模型使AI能够根据图像内容推理复杂问题,但它仍然无法像视觉感知系统那样精确定位图像对应的指令的目标区域。

因此,香港中文大学贾嘉亚团队提出了LISA(Large Language Instructed Segmentation Assistant)多模态大模型。

LISA通过引入标签扩展了初始大模型的词汇量,并使用Embedding-as-Mask(嵌入为掩码)范式赋予其解释多模态大模型分割的能力,最终展示了强大的零-样本泛化能力。

LISA技术方案概述,图片来源:受访者提供 在垂直应用场景中,云智声采用了医学知识增强的山海大模型。

北京友谊医院打造的门诊病历生成系统可以在不改变医生咨询方式的情况下使用。

通过记录医患对话,提取关键咨询信息并生成病历,将医生从书写病历的工作中解放出来,把更多的时间留给患者。

谷歌最近推出的Gemini也展示了多模态模型在各种应用场景中的潜在价值。

真正打通物理世界与数字世界的壁垒,关键在于有效处理多模态AI能力。

利用底层感知能力来导出操作,以实现与物理世界交互的最自然的方式。

在多模式人工智能爆发之前,不要温和地进入这个美好的夜晚。

*应受访者要求,文中濮林、陈毅均为化名【本文经投资界合伙人微信公众号:甲子光年授权。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

被高估的 Pika,被低估的多模态 AI

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 2018年,全球半导体资本支出将首次突破1000亿美元

    2018年,全球半导体资本支出将首次突破1000亿美元

    IC Insights将年度资本支出增长归因于“中国效应”。 近期,长江存储、华力、中芯国际等设备陆续搬入,也算是一个注脚……受益于半导体行业仍处于周期高端,市场研究机构IC Insight的调查报告指出,2020年全球半导体行业的资本支出将首次突破1000亿美元大关。 报告称,2020年

    06-06

  • 全球3D机器人视觉公司微链视觉完成数千万元Pre-A轮融资

    全球3D机器人视觉公司微链视觉完成数千万元Pre-A轮融资

    投资界(ID:pedaily)7月26日报道,据内部人士透露,全球3D机器人视觉领军企业“微链视觉”愿景”Pre-A轮融资已完成,融资金额达数千万元。 本轮融资由中央传媒旗下基金华民投资领投,水木清泉、深圳恒州信跟投。 本轮融资将用于进一步提升3D机器人视觉引导、深度学习和成像

    06-18

  • Azure Power 为印度 600 兆瓦太阳能发电厂提供购电协议

    Azure Power 为印度 600 兆瓦太阳能发电厂提供购电协议

    印度太阳能发电商 Azurepower Global Ltd 已为印度兆瓦级并网光伏 (PV) 项目签署购电协议 (PPA)。 与印度太阳能公司 (SECI) 的合同支持计划是根据与制造能力相关的 4GW 项目投标而授予的。 该机构将以每千瓦时 2.54 卢比(0.0 美元/0.0 欧元)的固定价格购买太阳能,为期 25

    06-08

  • 入睡前看屏幕可以带来更好的睡眠体验吗?这项新研究可能会改变我们的认识

    入睡前看屏幕可以带来更好的睡眠体验吗?这项新研究可能会改变我们的认识

    一天二十四小时,人们将近三分之一的时间都在睡觉。 如果我们不能通过睡眠得到良好的休息,我们的身体也会出现问题。 然而,世界上近三分之一的人口存在睡眠时间不足和睡眠质量差的问题。 它让本该放松的睡眠时间变得更加痛苦。 如果您搜索“如何提高睡眠质量?”你会得到大

    06-21

  • 京东仓储REIT武汉项目完成5年续租

    京东仓储REIT武汉项目完成5年续租

    1月4日,京东仓储REIT(基金代码:98)宣布,京东仓储REIT底层资产之一的武汉项目已顺利完成5年续租。 年租约续签。 周期更新。 公开资料显示,京东仓储REIT目前共持有3个底层资产,分别是重庆项目、武汉项目和廊坊项目。 武汉项目位于武汉空港经济开发区,是全国物流网络的关

    06-18

  • 微软发布会六大新品,折叠电脑、折叠手机初次亮相

    微软发布会六大新品,折叠电脑、折叠手机初次亮相

    微软推出六款新品,折叠电脑、折叠手机首次亮相2019年10月2日,微软在纽约召开Surface新品发布会。 此前,微软声称本次大会将带来“新的、创新的东西”。 那么,微软在本次大会上发布了哪些硬件产品呢?雷锋网带你一探究竟。 Surface Laptop 3:全新模块化设计,拆装方便。 第

    06-18

  • 硅基仿生获近5亿元D轮融资,加速血糖管理模式数字化升级

    硅基仿生获近5亿元D轮融资,加速血糖管理模式数字化升级

    据投资界(ID:pedaily)12月21日消息,近日,深圳硅基仿生科技芯科仿生科技股份有限公司(以下简称“芯科仿生”)“基芯仿生”)获得近5亿元D轮融资。 本轮融资由上海生物医药基金和广东省中医健康基金联合领投,兴证资本、嘉诚资本、中国新城等机构参与,方圆资本担任企业

    06-17

  • 博雷顿完成数亿元C轮融资 -钟鼎生态

    博雷顿完成数亿元C轮融资 -钟鼎生态

    近日,博雷顿科技有限公司完成数亿元C轮融资,由星航资本、合肥仁顿及耀明投资、中集车辆、上海科投共同领投,有限公司、科盛资本、中地资本共同投资。 本轮融资将主要用于产品研发、市场拓展、生产基地和销售体系拓展。 钟鼎资本自2006年开始投资博雷顿,持续关注新能源应用

    06-18

  • 易居中国确认IPO发行价13.8美元,融资2亿美元

    易居中国确认IPO发行价13.8美元,融资2亿美元

    8月8日下午消息,国内首只房地产经纪概念股——易居中国(NYSE:EJ)今天确认IPO (首次公开发行)发行价格为13.8美元,超出此前11.5美元至13.5美元的发行价格区间。 易居中国定于今晚在纽约证券交易所挂牌上市,发行10,000股美国存托股票(ADS),募集资金2.01亿美元。   易

    06-18

  • 新加坡共享单车oBike完成4500万美元B轮国际融资,分享高燃海外战绩

    新加坡共享单车oBike完成4500万美元B轮国际融资,分享高燃海外战绩

    据投资界8月17日消息,新加坡首家无桩智能共享单车公司oBike宣布已完成10,000美元B轮融资。 一轮国际融资。 本轮投资方包括出行平台、董事长和创始人德米特里格里申(Dmitry Grishin)旗下的Grishin Robotics以及东南亚各大家族。    据了解,自今年1月成立以来,oBike已进

    06-18

  • 贝塔斯曼集团收购BMG私募巨头全部股份 KKR退出

    贝塔斯曼集团收购BMG私募巨头全部股份 KKR退出

    据投资界3月4日消息,贝塔斯曼集团与KKR集团3月1日联合宣布,通过收购全球最大私募股权公司之一KKR国际媒体集团贝塔斯曼将通过持有的股份全面收购创新音乐版权管理公司BMG,并使其成为全资子公司。 该交易正在相关机构审批中,预计将于今年上半年完成。   贝塔斯曼集团首席

    06-17

  • 亚马逊自研芯片背后的大趋势

    亚马逊自研芯片背后的大趋势

    亚马逊网络服务上个月扩大了其芯片业务,主要是这家云提供商巨头推出了第三代基于Arm的Graviton处理器,该处理器将为计算密集型的新云实例提供动力高性能计算 (HPC)、科学建模、分析和基于 CPU 的机器学习推理等工作负载。 在 AWS 的 re:Invent 大会上,该公司推出了目前处于

    06-08