首页 > 科技未来 > 内容

CogVLM：智谱AI新一代多模态大模型

发布于：2024-06-18 编辑：匿名来源：网络

自5月18日VisualGLM-6B发布并开源以来，智谱AI&清华KEG一直在努力开发更强大的多模态大模型。

基于对视觉和语言信息融合的理解，我们提出了一种新的视觉语言基础模型CogVLM。

CogVLM可以在不牺牲任何NLP任务性能的情况下实现视觉语言特征的深度融合。

我们训练的CogVLM-17B是目前多模态权威学术榜单上综合性能第一的模型，在14个数据集上取得了state-of-the-art或第二名的成绩。

我们可以初步体验一下CogVLM的效果：上图中，CogVLM可以准确识别出4栋房屋（3栋完全可见，1栋只有放大才能看到）；相比之下，GPT-4V只能识别其中的3个。

。

为了推动多模态基础模型领域的研究和产业应用，我们开源了CogVLM-17B，并提供了可在单服务器上运行的微调代码，供大家学习和使用。

Github：Huggingface：Magic社区：论文：1.模型架构 CogVLM为何能取得改进效果的核心思想是“视觉优先”。

以前的多模态模型通常将图像特征直接对齐到文本特征的输入空间，并且图像特征的编码器通常尺寸较小。

在这种情况下，图像就可以被视为文本的“附庸”，效果自然而然。

有限的。

CogVLM在多模态模型中更加注重视觉理解，使用5B参数视觉编码器和6B参数视觉专家模块，总共11B参数建模图像特征，甚至比文本的7B参数还要多。

CogVLM的结构如下：该模型包含四个基本组件：ViT编码器、MLP适配器、预训练大语言模型（GPT式）和视觉专家模块。

ViT编码器：在CogVLM-17B中，我们使用预训练的EVA2-CLIP-E。

MLP 适配器：MLP 适配器是一个两层 MLP (SwiGLU)，用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。

预训练大语言模型：CogVLM 的模型设计与任何现有的 GPT 式预训练大语言模型兼容。

具体来说，CogVLM-17B使用Vicuna-7B-v1.5进行进一步训练；我们还选择了GLM系列模型和Llama系列模型进行相应的训练。

视觉专家模块：我们向每一层添加一个视觉专家模块，以实现深度视觉语言特征对齐。

具体来说，每一层视觉专家模块由QKV矩阵和MLP组成。

该模型在 A*days 上对 15 亿个图像文本对进行了预训练，并在第二阶段在构建的视觉基础数据集上进行了预训练。

在对齐阶段，CogVLM使用各种公开问答对和私有数据集进行监督微调，使模型能够回答各种类型的问题。

2.模型效果为了更严格地验证CogVLM的性能和泛化能力，我们对一系列多模态基准进行了定量评估。

这些基准大致分为三类（总共 14 个），包括图像字幕、视觉 QA 和视觉接地。

在这些基准测试中，CogVLM-17B 在 10 个基准测试中实现了 SOTA 性能，并在其他四个基准测试中获得了第二名（包括 VQAv2、OKVQA、TextVQA、COCO 字幕等）。

整体性能超过或匹配Google的PaLI-X 55B。

CogVLM 在 10 项评估中实现了 SOTA 性能，并在 4 项评估中仅次于 SOTA。

第二张图为TDIUC基准评测结果。

另外，我们可以用几个简单的例子来对比最近流行的MiniGPT-4和LLaVA-v1.5。

可以看出CogVLM-17B在图像理解、模型错觉和文本识别方面都有不错的效果。

———— 示例 1 ———— GPT-4 版本中的一个著名示例。

目前主流的开源模型，包括众所周知的MniGPT-4和最近发布的LLAVA 1.5，都无法理解这个视觉场景的有趣之处，而CogVLM则准确地指出VGA接口充电不合理。

———— 例2 ———— 这幅图的内容比较复杂，是日常生活中的一个场景。

CogVLM 准确地命名了所有类型的菜肴和餐具，确定镜子（“许多动物甚至无法理解镜子”）是反射而不是现实，并注意到角落里人的腿。

在这个复杂的描述中没有出现任何错误或错觉。

相比之下，MiniGPT-4和LLaVA-1.5都出现了幻觉，不够全面。

———— 示例3 ———— 图文并茂。

CogVLM忠实地描述了场景和相应的文本，而其他模型没有输出文本并且有很多幻觉。

3、研究人员说问：CogVLM和VisualGLM有什么联系和区别？答：CogVLM延续了VisualGLM的研究，但做了更大规模的改进。

首先体现在多模态融合技术上，CogVLM采用了最新的图像和文本信息融合方案，这在我们的文章中已经进行了解释。

其次，VisualGLM是一个依赖于特定语言模型的多模态模型，而CogVLM是一个更广泛的系列，不仅包括基于GLM的双语模型，还包括基于Llama2系列的英语模型。

此次开源的17B模型是基于Vicuna-7B的英文模型。

事实上，我们还完成了一个更大的英语模型和基于GLM的双语模型的内部训练，稍后可能会开源。

问：VisualGLM-6B模型中的视觉相关参数只有1.6B，而相比之下，CogVLM-17B的视觉相关参数达到了11B（甚至超过了语言模型的7B参数）。

为什么要采用更大视觉参数的方法呢？答：首先，通过大量的实验，我们得出的结论是，更多的参数对于视觉多模态模型很重要。

此前有一种观点认为，视觉并不需要大型模型。

因为人们在一些传统数据集（如ImageNet-1k等）上做了验证，发现模型的性能提升似乎并不是很大。

但之所以会出现这种现象，是因为传统数据集中的测试样本大多过于简单，小模型就足以处理此类问题。

CogVLM：智谱AI新一代多模态大模型

然而，人类世界中的视觉模型需要识别的东西远不止几千、几万种，比如各种品牌商标、名人外貌、地点、动植物类别、商品类别等，不可能一蹴而就。

值得记住的小模型；同时，在这种“开放词典”的设置下，随着可能的类别增加，出错的概率也会增加。

我们做了一些实验，发现对于这些真实场景的问题，放大模型往往会带来非常明显的性能提升。

当然，还有一个原因是，之前的大型视觉模型往往是闭源的，大多数人很难真正体验到模型尺寸带来的性能差异。

基于此，虽然CogVLM在性能上已经超越了很多大公司的闭源模型（如PaLI、PaLM-E、BEiT-3、GIT2等），但我们仍然选择像VisualGLM一样开源。

我们希望通过开源进一步推动多模态模型在研究和工业应用方面的发展。

问题：当我们使用图像和文本理解模型时，模型经常会给出一些图片中未包含的信息。

如何减少模型的这种错觉？答：模型出现幻觉，根源还是在于模型能力不足。

以前的多模态模型，无论是 MiniGPT-4、VisualGLM-6B 还是 LLaVA，通常描述图像中明显不存在的物体或颜色错误的物体。

本质是模型无法识别一些特殊的视觉表示，从而遵循场景中常见物体的先验输出。

对此，通过具体的微调，模型会对不确定的物体输出“不清楚”，以减少幻觉，提高用户体验。

当然，这并不能完全消除幻觉，但可以大大降低产生幻觉的频率。

解决幻觉的另一个有效方法是使用更大的参数和更多的训练量。

经过这两个程序后，CogVLM的幻觉已经降低到了一个相对较低的水平。

问：从CogView、CogVideo到VisualGLM、RDM、CogVLM等，您的工作一直在促进图像理解、视频理解、图像生成和视频生成。

为什么坚持做多模态基础模型？答：无论是真实的还是虚拟的界面感知和交互，主要都是以视觉为媒介。

当前的大语言模型虽然有了智能的出现，但它仍然被关在“笼子”里，与世隔绝。

一个完整的智能代理必须具有多模态理解。

多模态理解是智能发展和应用的必由之路。

正是基于同样的认识，智谱AI希望在这个方向上找到出路。

雷锋网（公众号：雷锋网）雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

站长声明

标签：

上一篇：2020年，中国独角兽企业数量达到251家，总估值超过万亿美元，

下一篇：TPG与新城投资战略合作开拓亚太私募股权二级市场交易

乐视网发起设立规模5亿至10亿元的投融资并购基金

据4月15日晚间消息，乐视网今日晚间发布公告，宣布将联合发起设立与乐视控股设立的利融投资并购业务基金，暂名。引领投资并购资金潮流，预计总规模5亿至10亿元。　　公告显示，乐视网作为该基金的有限合伙人，出资总额为1万元，乐视控股或其子公司出资总额为9万元。剩余部

06-18
木蚁机器人已完成近亿元融资，德邦快递等投资方投资，

木匠蚂蚁机器人宣布完成近亿元融资。投资方包括兰驰创投、德邦快递等。本次融资将主要用于产品研发、市场营销和团队扩张。听，中小企业反馈平台。倾听用户需求，倾听创业者声音，解决中小企业痛点。点击立即参与调查并获得礼物。

06-18
蔚来汽车与中国科学技术大学达成战略合作

据《安徽日报》5月12日消息，蔚来汽车与中国科学技术大学近日在合肥签署框架协议，达成战略合作伙伴关系。双方拟依托中国科大信息智能学科基础研究优势，在联合技术攻关、人才培养和互动等方面开展务实合作，共同推动技术创新和产业化，努力引领信息智能学科未来发展。行业

06-18
青少年编程教育平台“啊哈编程星球”获数千万天使轮融资，资本大手笔投资

据投资界7月3日消息，青少年编程教育平台“啊哈编程星球”获数千万天使投资轮融资。本轮投资方为峰分资本，盛大网络前联合创始人、总裁谭群钊将担任公司董事。本轮融资主要用于现有产品的迭代以及新产品的研发。　　阿哈编程星球创始人阿哈雷表示，本轮融资完成后，将进一

06-17
AI和裁员未能让科技巨头飙升

AI（人工智能）技术推动了全球科技巨头微软和谷歌的业绩增长，但华尔街一致认为业绩“不够好”。北京时间1月31日，市值近3万亿的美国科技巨头微软（纳斯达克股票代码：MSFT）发布了财年第二季度（即自然年第四季度）财报。与此同时，谷歌母公司Alphabet（纳斯达克股票代码：

06-17
浪潮信息：2020年营收630.38亿元，同比增长22.04%

浪潮信息近日发布年报。报告显示，2019年其营收为3800万元，同比增长22.04%；归属于上市公司股东的净利润14.66亿元，同比增长57.90%。

06-17
你距离拥有“强AI”女友还有多久？让专家告诉你

什么是强人工智能（strong AI）？简单来说，就是类似于人脑的智能。它可以独立地理解世界并学习知识，而不需要人类预先建立其感知和实践的模型（像当前的深度神经网络和比它弱的程序有数千种）。强人工智能是人工智能的终极形态。有很多人相信它能给人类带来福祉和灾难。

06-18
海南：支持符合条件的企业首发上市和企业并购重组，吸引具有一定产业优势的上市企业落户海南

海南发布《关于贯彻落实金融支持海南全面深化改革开放意见的实施方案》。方案提出，完善企业上市工作体系，加强行业主管部门、市县政府、重点园区在企业培育上市各环节的联动，围绕旅游、现代服务业、高新技术产业等建立体系。科技产业、热带高效农业等产业。完善企业上市

06-18
很久以前羊肉串完成近亿元B轮融资，由黑蚁资本独家投资

据投资界6月8日消息，烧烤连锁品牌很久以前羊肉串近日完成近亿元B轮融资，由黑蚁资本独家投资。 B轮融资，由黑蚁资本独家投资。羊肉串成立于2007年，截至年底已在北京、上海等城市开设了59家门店。公司专注于自助烧烤模式和来自呼伦贝尔大草原的羊肉，着力通过供应链质量控

06-18
ZAKER创始人李森和：重点布局泛生活信息

早上8点，人们在公交车、地铁上习惯性地打开手机，利用这段碎片化时间阅读新闻。手机上的新闻客户端包括聚合移动应用程序ZAKER。与腾讯、网易等新闻客户端相比，ZAKER在聚合信息的细分领域具有更大的优势。目前，ZAKER国内激活用户1.3亿，日活跃用户1万。在APP死亡率高达

06-18
小米造车“传闻”不断，雷军到底有多“委屈”

赢得淘汰赛才是小米汽车真正的挑战。雷军已经忍无可忍了。自从小米正式公布汽车以来，多日来一直是网络热议的焦点。俗话说，名人多，相关传闻时不时流传。尤其是上个月的技术发布会之后，围绕小米汽车的价格、材料、自主研发、供应链等传闻层出不穷。对此，雷军在微博上

06-18
大脑逆向工程是实现强人工智能的唯一途径吗？

目前世界上所有的AI都是弱AI。我想对AI有所了解的人肯定不会反驳上面这句话。尽管这些弱AI已经强大到足以击败世界顶级围棋选手，但这并不妨碍他们仍然是弱AI。人工智能虽然有智能，但事实上，当今世界上还没有一个人工智能具有真正的智能。我一个研究AI的朋友说得很好：A

06-18