首页 > 科技未来 > 内容

CogVLM:智谱AI新一代多模态大模型

发布于:2024-06-18 编辑:匿名 来源:网络

自5月18日VisualGLM-6B发布并开源以来,智谱AI&清华KEG一直在努力开发更强大的多模态大模型。

基于对视觉和语言信息融合的理解,我们提出了一种新的视觉语言基础模型CogVLM。

CogVLM可以在不牺牲任何NLP任务性能的情况下实现视觉语言特征的深度融合。

我们训练的CogVLM-17B是目前多模态权威学术榜单上综合性能第一的模型,在14个数据集上取得了state-of-the-art或第二名的成绩。

我们可以初步体验一下CogVLM的效果:上图中,CogVLM可以准确识别出4栋房屋(3栋完全可见,1栋只有放大才能看到);相比之下,GPT-4V只能识别其中的3个。

为了推动多模态基础模型领域的研究和产业应用,我们开源了CogVLM-17B,并提供了可在单服务器上运行的微调代码,供大家学习和使用。

Github:Huggingface:Magic社区:论文:1.模型架构 CogVLM为何能取得改进效果的核心思想是“视觉优先”。

以前的多模态模型通常将图像特征直接对齐到文本特征的输入空间,并且图像特征的编码器通常尺寸较小。

在这种情况下,图像就可以被视为文本的“附庸”,效果自然而然。

有限的。

CogVLM在多模态模型中更加注重视觉理解,使用5B参数视觉编码器和6B参数视觉专家模块,总共11B参数建模图像特征,甚至比文本的7B参数还要多。

CogVLM的结构如下:该模型包含四个基本组件:ViT编码器、MLP适配器、预训练大语言模型(GPT式)和视觉专家模块。

ViT编码器:在CogVLM-17B中,我们使用预训练的EVA2-CLIP-E。

MLP 适配器:MLP 适配器是一个两层 MLP (SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。

预训练大语言模型:CogVLM 的模型设计与任何现有的 GPT 式预训练大语言模型兼容。

具体来说,CogVLM-17B使用Vicuna-7B-v1.5进行进一步训练;我们还选择了GLM系列模型和Llama系列模型进行相应的训练。

视觉专家模块:我们向每一层添加一个视觉专家模块,以实现深度视觉语言特征对齐。

具体来说,每一层视觉专家模块由QKV矩阵和MLP组成。

该模型在 A*days 上对 15 亿个图像文本对进行了预训练,并在第二阶段在构建的视觉基础数据集上进行了预训练。

在对齐阶段,CogVLM使用各种公开问答对和私有数据集进行监督微调,使模型能够回答各种类型的问题。

2.模型效果为了更严格地验证CogVLM的性能和泛化能力,我们对一系列多模态基准进行了定量评估。

这些基准大致分为三类(总共 14 个),包括图像字幕、视觉 QA 和视觉接地。

在这些基准测试中,CogVLM-17B 在 10 个基准测试中实现了 SOTA 性能,并在其他四个基准测试中获得了第二名(包括 VQAv2、OKVQA、TextVQA、COCO 字幕等)。

整体性能超过或匹配Google的PaLI-X 55B。

CogVLM 在 10 项评估中实现了 SOTA 性能,并在 4 项评估中仅次于 SOTA。

第二张图为TDIUC基准评测结果。

另外,我们可以用几个简单的例子来对比最近流行的MiniGPT-4和LLaVA-v1.5。

可以看出CogVLM-17B在图像理解、模型错觉和文本识别方面都有不错的效果。

———— 示例 1 ———— GPT-4 版本中的一个著名示例。

目前主流的开源模型,包括众所周知的MniGPT-4和最近发布的LLAVA 1.5,都无法理解这个视觉场景的有趣之处,而CogVLM则准确地指出VGA接口充电不合理。

———— 例2 ———— 这幅图的内容比较复杂,是日常生活中的一个场景。

CogVLM 准确地命名了所有类型的菜肴和餐具,确定镜子(“许多动物甚至无法理解镜子”)是反射而不是现实,并注意到角落里人的腿。

在这个复杂的描述中没有出现任何错误或错觉。

相比之下,MiniGPT-4和LLaVA-1.5都出现了幻觉,不够全面。

———— 示例3 ———— 图文并茂。

CogVLM忠实地描述了场景和相应的文本,而其他模型没有输出文本并且有很多幻觉。

3、研究人员说 问:CogVLM和VisualGLM有什么联系和区别? 答:CogVLM延续了VisualGLM的研究,但做了更大规模的改进。

首先体现在多模态融合技术上,CogVLM采用了最新的图像和文本信息融合方案,这在我们的文章中已经进行了解释。

其次,VisualGLM是一个依赖于特定语言模型的多模态模型,而CogVLM是一个更广泛的系列,不仅包括基于GLM的双语模型,还包括基于Llama2系列的英语模型。

此次开源的17B模型是基于Vicuna-7B的英文模型。

事实上,我们还完成了一个更大的英语模型和基于GLM的双语模型的内部训练,稍后可能会开源。

问:VisualGLM-6B模型中的视觉相关参数只有1.6B,而相比之下,CogVLM-17B的视觉相关参数达到了11B(甚至超过了语言模型的7B参数)。

为什么要采用更大视觉参数的方法呢? 答:首先,通过大量的实验,我们得出的结论是,更多的参数对于视觉多模态模型很重要。

此前有一种观点认为,视觉并不需要大型模型。

因为人们在一些传统数据集(如ImageNet-1k等)上做了验证,发现模型的性能提升似乎并不是很大。

但之所以会出现这种现象,是因为传统数据集中的测试样本大多过于简单,小模型就足以处理此类问题。

CogVLM:智谱AI新一代多模态大模型

然而,人类世界中的视觉模型需要识别的东西远不止几千、几万种,比如各种品牌商标、名人外貌、地点、动植物类别、商品类别等,不可能一蹴而就。

值得记住的小模型;同时,在这种“开放词典”的设置下,随着可能的类别增加,出错的概率也会增加。

我们做了一些实验,发现对于这些真实场景的问题,放大模型往往会带来非常明显的性能提升。

当然,还有一个原因是,之前的大型视觉模型往往是闭源的,大多数人很难真正体验到模型尺寸带来的性能差异。

基于此,虽然CogVLM在性能上已经超越了很多大公司的闭源模型(如PaLI、PaLM-E、BEiT-3、GIT2等),但我们仍然选择像VisualGLM一样开源。

我们希望通过开源进一步推动多模态模型在研究和工业应用方面的发展。

问题:当我们使用图像和文本理解模型时,模型经常会给出一些图片中未包含的信息。

如何减少模型的这种错觉? 答:模型出现幻觉,根源还是在于模型能力不足。

以前的多模态模型,无论是 MiniGPT-4、VisualGLM-6B 还是 LLaVA,通常描述图像中明显不存在的物体或颜色错误的物体。

本质是模型无法识别一些特殊的视觉表示,从而遵循场景中常见物体的先验输出。

对此,通过具体的微调,模型会对不确定的物体输出“不清楚”,以减少幻觉,提高用户体验。

当然,这并不能完全消除幻觉,但可以大大降低产生幻觉的频率。

解决幻觉的另一个有效方法是使用更大的参数和更多的训练量。

经过这两个程序后,CogVLM的幻觉已经降低到了一个相对较低的水平。

问:从CogView、CogVideo到VisualGLM、RDM、CogVLM等,您的工作一直在促进图像理解、视频理解、图像生成和视频生成。

为什么坚持做多模态基础模型? 答:无论是真实的还是虚拟的界面感知和交互,主要都是以视觉为媒介。

当前的大语言模型虽然有了智能的出现,但它仍然被关在“笼子”里,与世隔绝。

一个完整的智能代理必须具有多模态理解。

多模态理解是智能发展和应用的必由之路。

正是基于同样的认识,智谱AI希望在这个方向上找到出路。

雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

CogVLM:智谱AI新一代多模态大模型

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 2023年A股将如何规划?林园、洪浩等五位大咖看好这些优质资产的投资机会!

    2023年A股将如何规划?林园、洪浩等五位大咖看好这些优质资产的投资机会!

    今年市场有起有落。 对于即将到来的一年,每个人都有着未知,也充满着期待。 如何把脉就变得尤为重要。 12月18日至22日,《红周刊》重磅线上投资策略会“前瞻优质资产再现”成功举办。 本次战略会议邀请了深圳市林源投资管理有限公司董事长林源、思瑞集团首席经济学家洪浩、北

    06-18

  • 强网杯:周鸿祎称网络战时代,网络安全软实力必须提升

    强网杯:周鸿祎称网络战时代,网络安全软实力必须提升

    近期,《人民日报》、《新华社》连续发表文章指出美国对我国网络的攻击以及基础设施越来越密集,他们列出了无数的数据。 6月15日,在河南郑州举办的互联网强者论坛上,董事长周鸿祎公司透露,近年来,安全大脑共发现40个渗透潜伏到中国网络的境外APT(高级持续威胁)攻击组织

    06-17

  • 华尔街日报:芯片短缺让德州仪器成为焦点

    华尔街日报:芯片短缺让德州仪器成为焦点

    据《华尔街日报》报道,数字时代最受欢迎的一些设备是模拟半导体,其中包括有91年历史的德州仪器生产的产品。 该公司因其自 20 世纪 70 年代以来生产的计算器而为消费者所熟知。 科技高管表示,今年的供应链瓶颈已经影响到从 iPhone 到福特 F-1 的所有产品,其中模拟芯片的情

    06-08

  • 新驰科技获10亿元B轮融资,加速更先进工艺芯片的研发

    新驰科技获10亿元B轮融资,加速更先进工艺芯片的研发

    创造头条新闻7月26日,新驰科技宣布完成近10亿元B轮融资,主要用于用于研发更先进工艺芯片。 新驰科技成立于2007年,是一家本土汽车芯片公司。 其业务范围涵盖智能座舱、中央网关、自动驾驶、高可靠MCU等,今年3月在“缺芯潮”背景下实现百万片/年订单。 据悉,本轮融资由普罗

    06-17

  • “冰剑科技”完成2.28亿元C2轮融资

    “冰剑科技”完成2.28亿元C2轮融资

    今日,上海冰剑信息科技有限公司宣布完成2.28亿元C2轮融资。 本轮融资由国创中鼎领投,东方富海、西域资本跟投。 跟随投资。 中华创业投资担任C2轮独家代理。 本轮融资主要用于扩大研发团队、上下游投资、完善公司生态建设和业务版图。

    06-18

  • KaaS旗下学习平台“极客帮科技”完成亿元B+轮融资

    KaaS旗下学习平台“极客帮科技”完成亿元B+轮融资

    4nbsp; 3月19日消息:KaaS旗下学习平台“极客帮科技”宣布完成1亿元B+轮融资,由东方富海领投。 赛智伯乐和鑫熙创投为联合投资者,指数资本为独家投资者。 本轮融资将主要用于内容开发、技术研发和市场品牌投入,深化To B、To C驱动的产品矩阵和生态协同,促进数字人才全面发

    06-18

  • 韩媒:中国加大对韩国材料、零部件和设备行业投资

    韩媒:中国加大对韩国材料、零部件和设备行业投资

    今年前9个月,中国对韩国直接投资同比增长25.7%,达50.9亿美元。 大部分投资将投向材料、零部件和设备行业。 据韩国媒体businesskorea报道,虽然中国对韩国投资增速低于欧盟(0.2%)和日本(33.8%),但与其他地区不同的是,这已是连续第三年增长。 去年,美国、日本和欧盟减

    06-08

  • 中国半导体功率器件十强榜单出炉,扬杰电子荣登榜首

    中国半导体功率器件十强榜单出炉,扬杰电子荣登榜首

    近日,中国半导体行业协会分立器件第十三届年会暨中国半导体器件技术创新与产业发展论坛在我市成功举办青岛。 会上,中国半导体行业协会公布了中国半导体行业十大功率器件,让我们更深入地了解了中国半导体行业的这一细分领域。 我们来看看这十家企业: 扬州扬杰科技有限公司

    06-06

  • 瑞幸9.9元的价格战陷入僵局

    瑞幸9.9元的价格战陷入僵局

    第一个“热搜”开启,没想到却撞上了“瑞幸”。 昨天,“瑞幸9.9元杯活动缩水”的消息被推到舆论风口浪尖,一直发酵至今。 原因是,多地网友发现,瑞幸每周9.9元的优惠不再是所有饮品都可以享受,而是加上了很多“限制”。 瑞幸官方客服今日也发布了相关回应。 究竟瑞幸为何做

    06-18

  • 「纽迈医疗」获超1亿美元C轮融资

    「纽迈医疗」获超1亿美元C轮融资

    上海纽迈医疗科技有限公司宣布完成超1亿美元C轮融资。 本轮融资由淡马锡领投,云锋基金、Become Venture Partners Fund及老股东奥博资本(OrbiMed)、大辰资本、博源资本、张科毅、君紫投资等跟投,皓月资本担任跟投本轮融资独家投资方。 本轮融资公司将用于加速结构性心脏病

    06-17

  • 青普生物科技成功获得近5000万元Pre-A轮融资

    青普生物科技成功获得近5000万元Pre-A轮融资

    据投资界9月14日消息,南京青普生物科技有限公司(以下简称“青普生物科技”),专注于疼痛领域改良新药研发,宣布完成近万元Pre-A轮融资。 本轮融资由君联资本领投,天使股东英迪资本继续参与投资。 青普生物专注于于非阿片类镇痛药的研发。 本轮融资将主要用于推进现有项目

    06-17

  • Imagination 任命 Nong Pai 为 Imagination China 董事长

    Imagination 任命 Nong Pai 为 Imagination China 董事长

    7 月 15 日 – Imagination Technologies 宣布任命 Wallace Pai 为 Imagination China 董事长。 白农先生将帮助Imagination进一步深化中国市场战略,以更好地捕捉广泛的市场机遇。 他在战略、销售和业务合作方面拥有丰富的技能和经验,这将推动Imagination的业务持续增长,同

    06-06