首页 > 科技未来 > 内容

被高估的 Pika，被低估的多模态 AI

发布于：2024-06-18 编辑：匿名来源：网络

多模态 AI 正处于爆发前夕。

从GPT-4V的“惊艳亮相”，到AI视频生成工具Pika 1.0的“爆红亮相”，再到Google Gemini的“全面*”，多模态AI是一个关键词。

尽管皮卡1.0的宣传视频被一些用户认为是“炒作”，或者谷歌承认Gemini的演示视频是“剪辑过的”，但不可否认的是，它们丰富了人们对多模态AI的想象。

“之前很多公司都在开发大型文本模型，GPT-4V的出现意味着多模态大模型可以实现。

毫无疑问，明年大家都会开发多模态AI。

原因很简单，因为OpenAI表明这条路是可行的。

”微博新技术研发负责人、首席人工智能科学家张俊林表示。

在“落地”成为行业主旋律的当下，多模态人工智能正在走向场景化、实用化、商业化。

例如，在医疗领域，通过图像、录音和病历文本的结合，可以提供更准确的诊断和治疗方案；在交通领域，图像和传感器数据可以结合，带来更智能、更安全的自动驾驶体验；在教育领域，结合文字、声音、视频，呈现更多互动的教育内容。

然而，业界一直在提及的多模态概念，远不如近期几款现象级产品的演示那么直观：多模态不仅能为AI应用带来更多可能性，也是实现通用人工智能的重要路径。

1.皮卡：实力还是炒作？最近的AI圈饭局上，大家谈论多模态AI时，经常会提到一家硅谷创业公司——Pika Labs。

该公司的初创团队只有4人。

创始人兼CEO郭文静拥有“女学霸”、“斯坦福辍学创业”、“上市公司创始人之女”等个人标签； Pika已三轮融资筹集1万美元，估值在2-3亿美元之间；投资者包括 Quora 创始人兼首席执行官 Adam D'angelo、OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼首席执行官 Clem Delangue、YC 合伙人 Daniel Gross 等人。

综合起来，可以说皮卡的火爆在于它的发展过程，讲述了一个让技术、商业、资本、用户都感兴趣的故事，赶上了好时光。

“今年6月之后，对AI生成图片的投资变得更加保守，很多投资者会更加关注AI生成视频。

从事AI生成视频研究的濮林（化名）告诉甲子光年，自从AIGC概念提出以来，无论是AI生成图片还是AI生成视频都非常受欢迎。

不过，基于技术的发展，业界预计，到今年年底，将会有一个很好的AI生成视频的演示。

“这个demo足以吸引大量流量，甚至出圈。

有了这样的底气，投资逻辑才能持续下去。

可以说皮卡占据了很好的时间点。

” Pika 1.0上线那天，科技圈大佬都来支持他。

自然语言处理领域知名学者克里斯托弗·曼宁（Christopher Manning）盛赞Pika的两位创始人郭文晶和孟晨林推动了优质视频的快速发展； OpenAI科学家Andrej Karpathy在社交平台转发Pika 1.0的演示内容并表示：“每个人都可以成为多模态梦想的导演，就像《盗梦空间》中的建筑师一样”Pika 1.0在圈内走红，是密不可分的来自官方宣传视频，视频中用户只需输入“马斯克穿着太空服，3D动画”，就会生成如下视频，皮卡1.0官方宣传视频中的其他演示也可以描述为：视频发布后，有媒体迫不及待地表示“AI生成视频的ChatGPT时刻即将到来”，但Pika真的像7月份宣传视频中展示的那样“惊艳”吗？今年，Pika Labs 在 Discord 上推出了服务器，短短几个月就获得了 50 万用户。

不过，如果你想使用最新的 Pika 1.0，你可能还需要在官网上排队一段时间。

许多用户发布了测试视频。

目前，Pika 1.0只能生成3秒的显示视频。

在社区中，用户A输入提示词：一条龙在天上飞。

这个表达比较清晰，但是输出的视频结果与龙无关，更像是克苏鲁生物。

用户B输入了更详细的提示：女牧师 - dnd角色 - 战斗姿势 - 角色选择默认动画 - 相机放大 - 动作1（女牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 相机变焦 - 动作1）。

此次Pika 1.0输出的视频结果总体上符合要求，但细节上仍然存在明显缺陷，人物双手的构图“惨不忍睹”。

不过，“AI不会算数”是一个长期存在的问题，并不是皮卡独有的“缺陷”。

但也有一些案例取得了惊人的结果。

例如，用户C提供图片并输入提示文字：搁浅的中世纪船、狂暴的大海、雨、悬崖、慢动作、-motion 2 -gs22 -camera pan right 图片：1 Attachment (搁浅的中世纪船) Boats、汹涌的波浪、雨、悬崖、慢动作、动作2、gs22-镜头向右平移，图片：附件1），生成的视频效果更加精致。

AI 教育家 Chase Lean 在尝试 Pika 1.0 后难掩兴奋之情。

他在社交媒体上直言，这是“他用过的最好的AI视频生成器”。

Prinx一直关注Pika及相关产品。

从演示和实际使用体验来看，Pika 1.0已经处于“行业第一水平”。

对于AI生成视频工具来说，最简单的标准就是“生成的内容是否真实”。

从技术上来说，皮卡在单帧画面真实感、审美品质、视频中的动作感等方面都表现出色。

在文森视频、图胜视频、镜头移动方面也有不错的能力。

除了算法之外，社区活动也被认为是初创公司核心竞争力的一部分，包括维护Discord社区。

目前，Pika的社区活跃度在业内名列前茅。

在图像视频生成方面，业界主流的技术路线是Diffusion Model。

不过，Pika联合创始人孟晨林在接受采访时透露：“Pika不能完全看做是一种扩散模式，我们开发了很多新的东西，是一种新的模式。

”不过，在濮林看来，Pika 与其他 AI 生成视频工具（如 Runway）“没有本质的技术区别”，部分自媒体对 Pika 与 Runway 的对比分析“纯粹是经验归纳” ”。

这也会引出一个问题。

长期关注AI领域的投资人陈毅（化名）向“甲子光年”表达了自己的担忧：“扩散模型并不智能。

主要是根据以往图像的经验来拟合符合人类审美的图像。

，不具备理解语言和智能思考的能力，而当我们使用ChatGPT时，我们会感觉我们正在和一个真人交谈，尽管这个“人”的智商可能高或低。

”陈毅认为，虽然皮卡的走红与产品的实力密不可分，但更多的是“炒作”的成分。

“就像炒土豆丝一样，每个人使用的厨房用具和调料可能有很大不同，但生材料最终是相同的。

土豆。

”陈毅比喻道，“理解语言的根本问题还没有解决，图像学还缺乏飞跃的时刻。

在回答“AI视频生成何时迎来GPT时刻？”这个问题时，Pika团队还是比较清醒的。

孟辰林认为，当前的视频世代正处于与GPT-2类似的时期，“明年很有可能会出现GPT时刻”。

“巨大的进步。

”皮卡的能力在某种程度上被高估了，但皮卡带来的破圈效应却是从业者乐见的。

普林五年前进入人工智能生成视频领域，在过去的六个月里，这是他感觉这个领域“最热门”的时期。

虽然他也觉得皮卡“宣传上比较激进”，但从专业角度来看，他认为四人团队制作皮卡“没问题”。

2、争夺AI视频生成高地从技术角度来看，有业内学者认为，相比文本、代码、图像生成，文本转视频才是AIGC的“高地”，因为存在巨大的需求该领域的计算能力。

、缺乏高质量数据集、可控性差等挑战。

濮林认为，AI视频生成领域还存在一个问题，那就是产学研之间的差距往往导致研究人员难以第一时间应用研究成果。

事实上，由于不同的视频制作者，如电影、动画、短剧等，其制作流程不同，因此研究可能只涉及一种特定的制作方式，如文字转视频。

普林最近也涉足该行业。

通过与电影制片人的交流进行研究并不断优化自己的研究方向。

被高估的 Pika，被低估的多模态 AI

“解决问题的关键在于开发的工具能否真正满足视频制作者的需求并契合他们的实际工作流程。

”濮林告诉《甲子光年》，“当你的研究更接近生产时，就会产生更大的经济价值。

”商汤科技数字娱乐事业部副总裁李兴业表示，在多模态AI中，文盛视频门槛较高。

“现在一些广告视频的制作，只需要输入文字就可以生成视频了，当然效率还没有那么高，视频像素可以达到4K或者8K，但是动画效果还是比较差的。

”简单的。

”在AI视频生成领域，尽管Pika的关注度越来越高，但它面临着越来越激烈的竞争，Runway推出了Motion Brush，一种动态画笔刷新功能，用户只需轻轻一划即可将图像变成动态视频。

此外，Runway与电影制作公司密切合作，发布了Stable Video Diffusion视频模型，用户可以根据需要调整各种参数，例如迭代步数、重画范围等，帮助创作者精确控制。

图片生成过程，包括风格、姿势、线条等特征；此外，现象级图形工具Midjourney也在开发视频功能；Meta也开源了两个新的视频编辑功能，AnimateDiff。

、MAKEAVIDEO、MagicAnimate等也在布局AI视频生成赛道 3、多模态AI的想象力对于投资者来说，多模态AI也是今年下半年关注的焦点。

长期关注AI领域投资的心资本合伙人吴秉建认为，大语言模型只是AI版图的一部分。

基本模型的基本原理是“预测下一个token（预测下一个单词）”。

这个原理可能会带来其他模型。

“如果未来 Transformer 或者另一套算法能够准确预测下一帧，那么视频模型就会问世，就有机会解锁下一级别的内容平台；如果接下来一系列的动作序列能够被准确预测，那么具身智能一旦模型出来，万能机器人就解锁了；如果能准确预测下一个蛋白质序列，那么蛋白质模型就出来了，新药研发就可以再上一个大台阶；向前迈进一步；如果能够准确预测下一个像素，那么3D模型就会出来，一旦完成，元宇宙的构建就会解锁。

”吴秉建说。

在吴秉健看来，一旦版图全面解锁，就会出现多种基础模型，很多方向的边际成本将趋近于零，不断解锁新应用层的机会。

国内AI厂商也在加大多模态AI的投入。

昆仑万维在海外进行了AI多模态场景探索，其中包括AI游戏（考拉俱乐部）。

它已在德国科隆游戏展上亮相，预计明年上半年进行测试。

“这不仅包括普通对话、大模型赋能的AI NPC，还包括3D生成等AIGC技术。

尤其是在AI 3D生成方面，我们做得比较好。

”昆仑万维董事长兼首席执行官方瀚介绍。

《甲子光年》也关注到了一些科技巨头的入局。

例如，清华大学计算机系教授、清华大学人工智能研究院副院长朱军创办的盛树科技，专注于多模态层面，致力于打造可控多模态通用大模型;原字节跳动王长虎，前视觉技术负责人、AI实验室主任，创立爱视科技，专注于生成式AI的视觉多模态算法平台。

虽然大型多模态模型使AI能够根据图像内容推理复杂问题，但它仍然无法像视觉感知系统那样精确定位图像对应的指令的目标区域。

因此，香港中文大学贾嘉亚团队提出了LISA（Large Language Instructed Segmentation Assistant）多模态大模型。

LISA通过引入标签扩展了初始大模型的词汇量，并使用Embedding-as-Mask（嵌入为掩码）范式赋予其解释多模态大模型分割的能力，最终展示了强大的零-样本泛化能力。

LISA技术方案概述，图片来源：受访者提供在垂直应用场景中，云智声采用了医学知识增强的山海大模型。

北京友谊医院打造的门诊病历生成系统可以在不改变医生咨询方式的情况下使用。

通过记录医患对话，提取关键咨询信息并生成病历，将医生从书写病历的工作中解放出来，把更多的时间留给患者。

谷歌最近推出的Gemini也展示了多模态模型在各种应用场景中的潜在价值。

真正打通物理世界与数字世界的壁垒，关键在于有效处理多模态AI能力。

利用底层感知能力来导出操作，以实现与物理世界交互的最自然的方式。

在多模式人工智能爆发之前，不要温和地进入这个美好的夜晚。

*应受访者要求，文中濮林、陈毅均为化名【本文经投资界合伙人微信公众号：甲子光年授权。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

站长声明

标签：

上一篇：阳阳魔幻教育获近千万元Pre-A轮融资，港粤资本领投

下一篇：苹果清理App Store应用，不更新则下架

炒黄金给年轻人上了一课

今年国庆“黄金周”成为黄金投资者的“黄金灾难”。国庆节前，金价创下历史新高，接近元/克。随后，仅9月27日、28日，国内金价就下跌20元/克以上。截至10月10日，国内黄金价格约为元/克。珠宝店的黄金价格通常高于黄金的市场价格。国庆节前，各大珠宝品牌销售的黄金首饰

06-18
纳斯达克公布Coinbase上市参考价，估值653亿美元

纳斯达克周二表示，加密货币交易平台Coinbase上市参考价为每股美元。在完全稀释的基础上，Coinbase 的估值约为 1 亿美元。 Coinbase是第一家在美国上市的大型加密货币公司。如果其市值达到1亿美元，将成为美国最有价值的85家公司之一。

06-18
如何选择知识图谱可视化工具？

.wp-block-column h3{margin-left:0} 文章摘要：随着知识图谱数据规模的增大，未来知识图谱可视化工具需要具备更高效的大规模数据处理能力。这包括大规模节点和关系的快速加载和渲染，以及对复杂图结构和属性的高效处理和分析能力。

06-18
先盛业财获近千万美元A轮融资

据投资界11月2日消息，先盛业财宣布完成近千万美元A轮融资，由元璟资本和赛意产业基金投资，老股东常春藤资本持续加大投资，Index Capital担任本轮独家投资方。先声业财表示，本轮融资将主要用于人才引进、销售扩张、生态建设等方面。先胜业财成立于2001年，最初主要以国外

06-18
教育AI共享平台土必图获Pre-A轮融资，圆通速递战略投资

据投资界3月22日消息，据相关媒体报道，教育AI共享平台土必图与圆通速递达成投资战略合作，完成Pre-A轮数千万元融资。　　据悉，圆通速递此次投资了土必图教育共享平台，估值至少2亿。本次注资后，圆通将与土必图教育进行资源互通，将快递资源接入土必图教育共享平台，依

06-17
联发科将于今年晚些时候推出支持 5G 的 7nm 芯片组

据一份新报告称，台湾芯片制造商联发科计划今年推出 5G 芯片组。这款新芯片组将与高通 Snapdragon 和海思麒麟竞争。联发科芯片组主要应用于入门级和中端智能手机。新的联发科5G芯片组将采用7nm制造工艺。据联发科称，新芯片组将比最新的 Helio P90 更强大。与其他产品不

06-06
嘀嗒出行App推出“三通一键”功能，方便老年人打车

作者|沈周移动互联网时代，老年人如何才能真正感受到现代智能科技带来的便捷、人文关怀和尊重？对于移动旅游平台来说，这是一个重要的问题。近日，在国务院新闻办举行的第《关于切实解决老年人运用智能技术困难实施方案》国务院政策例行吹风会上，新闻发言人和交通运输部运

06-17
微鲸发布43英寸4K新品，重新定义行业标杆

（2020年11月19日，北京）微鲸“哇玩”金秋发布会在北京举行。微鲸科技CEO弗拉基米尔李怀宇宣布，刚刚过去的双十一期间，微鲸仅用一台55英寸电视就在天猫旗舰店卖出了5台，阿宝14分钟送到家，成为“第一”双十一天猫“单曲”，冠军也刷新了天猫55英寸单品销量，成为最年轻的

06-18
下游需求拉动业绩增长北方华创上半年营收16.55亿元

下游需求拉动业绩增长。北方华创上半年营收16.55亿元。日前，国内装备制造商北方华创发布了上半年业绩报告。北方华创表示，上半年，在下游集成电路、光伏、平板显示等生产线建设以及高精度元器件需求的拉动下，公司电子工艺设备及电子元器件业务保持了高速增长。整体增长

06-06
蓝店获数千万A+轮融资，是一家专注邻里关系的新型社区电商平台

据投资界9月20日消息，蓝店今日宣布完成数十轮融资数百万A+轮融资，投资方为博信资本。 Bluedian首席执行官洪振业表示，本轮融资将用于供应链建设和技术投入，进一步打造Bluedian社区电商体系。作为国内最早为快递企业提供终端收货服务的企业之一，蓝电意识到社区电商赛道依

06-17
国产手机红海之战，谁能重回国酷联盟主流？

乌镇全球互联网大会刚刚结束。每年，丁磊都会为来到TMT的大佬一家举办丰盛的宴会。因此，我们有必要讨论一下，这些象征着中国制造的国产手机能否熬过红海战争。乌镇全球互联网大会刚刚结束。每年，丁磊都会为来到TMT的大佬一家举办丰盛的宴会。从今年刷屏的照片来看，国

06-17
Apple Pencil 3 新功能曝光，至少有这三个更新

今天，苹果为开发者发布了 iPadOS 17.5 测试版。 9to5Mac 在其中发现了多段代码，暗示新款 Apple Pencil 将有一个重要更新：新的“挤压手势”。新的挤压手势可以让用户快速进行一些简单的交互，让用户在各种操作中添加形状、签名、贴纸或文字更加方便灵活。据推测，该手势将

06-21