乐视网发起设立规模5亿至10亿元的投融资并购基金
06-18
自5月18日VisualGLM-6B发布并开源以来,智谱AI&清华KEG一直在努力开发更强大的多模态大模型。
基于对视觉和语言信息融合的理解,我们提出了一种新的视觉语言基础模型CogVLM。
CogVLM可以在不牺牲任何NLP任务性能的情况下实现视觉语言特征的深度融合。
我们训练的CogVLM-17B是目前多模态权威学术榜单上综合性能第一的模型,在14个数据集上取得了state-of-the-art或第二名的成绩。
我们可以初步体验一下CogVLM的效果:上图中,CogVLM可以准确识别出4栋房屋(3栋完全可见,1栋只有放大才能看到);相比之下,GPT-4V只能识别其中的3个。
。
为了推动多模态基础模型领域的研究和产业应用,我们开源了CogVLM-17B,并提供了可在单服务器上运行的微调代码,供大家学习和使用。
Github:Huggingface:Magic社区:论文:1.模型架构 CogVLM为何能取得改进效果的核心思想是“视觉优先”。
以前的多模态模型通常将图像特征直接对齐到文本特征的输入空间,并且图像特征的编码器通常尺寸较小。
在这种情况下,图像就可以被视为文本的“附庸”,效果自然而然。
有限的。
CogVLM在多模态模型中更加注重视觉理解,使用5B参数视觉编码器和6B参数视觉专家模块,总共11B参数建模图像特征,甚至比文本的7B参数还要多。
CogVLM的结构如下:该模型包含四个基本组件:ViT编码器、MLP适配器、预训练大语言模型(GPT式)和视觉专家模块。
ViT编码器:在CogVLM-17B中,我们使用预训练的EVA2-CLIP-E。
MLP 适配器:MLP 适配器是一个两层 MLP (SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。
预训练大语言模型:CogVLM 的模型设计与任何现有的 GPT 式预训练大语言模型兼容。
具体来说,CogVLM-17B使用Vicuna-7B-v1.5进行进一步训练;我们还选择了GLM系列模型和Llama系列模型进行相应的训练。
视觉专家模块:我们向每一层添加一个视觉专家模块,以实现深度视觉语言特征对齐。
具体来说,每一层视觉专家模块由QKV矩阵和MLP组成。
该模型在 A*days 上对 15 亿个图像文本对进行了预训练,并在第二阶段在构建的视觉基础数据集上进行了预训练。
在对齐阶段,CogVLM使用各种公开问答对和私有数据集进行监督微调,使模型能够回答各种类型的问题。
2.模型效果为了更严格地验证CogVLM的性能和泛化能力,我们对一系列多模态基准进行了定量评估。
这些基准大致分为三类(总共 14 个),包括图像字幕、视觉 QA 和视觉接地。
在这些基准测试中,CogVLM-17B 在 10 个基准测试中实现了 SOTA 性能,并在其他四个基准测试中获得了第二名(包括 VQAv2、OKVQA、TextVQA、COCO 字幕等)。
整体性能超过或匹配Google的PaLI-X 55B。
CogVLM 在 10 项评估中实现了 SOTA 性能,并在 4 项评估中仅次于 SOTA。
第二张图为TDIUC基准评测结果。
另外,我们可以用几个简单的例子来对比最近流行的MiniGPT-4和LLaVA-v1.5。
可以看出CogVLM-17B在图像理解、模型错觉和文本识别方面都有不错的效果。
———— 示例 1 ———— GPT-4 版本中的一个著名示例。
目前主流的开源模型,包括众所周知的MniGPT-4和最近发布的LLAVA 1.5,都无法理解这个视觉场景的有趣之处,而CogVLM则准确地指出VGA接口充电不合理。
———— 例2 ———— 这幅图的内容比较复杂,是日常生活中的一个场景。
CogVLM 准确地命名了所有类型的菜肴和餐具,确定镜子(“许多动物甚至无法理解镜子”)是反射而不是现实,并注意到角落里人的腿。
在这个复杂的描述中没有出现任何错误或错觉。
相比之下,MiniGPT-4和LLaVA-1.5都出现了幻觉,不够全面。
———— 示例3 ———— 图文并茂。
CogVLM忠实地描述了场景和相应的文本,而其他模型没有输出文本并且有很多幻觉。
3、研究人员说 问:CogVLM和VisualGLM有什么联系和区别? 答:CogVLM延续了VisualGLM的研究,但做了更大规模的改进。
首先体现在多模态融合技术上,CogVLM采用了最新的图像和文本信息融合方案,这在我们的文章中已经进行了解释。
其次,VisualGLM是一个依赖于特定语言模型的多模态模型,而CogVLM是一个更广泛的系列,不仅包括基于GLM的双语模型,还包括基于Llama2系列的英语模型。
此次开源的17B模型是基于Vicuna-7B的英文模型。
事实上,我们还完成了一个更大的英语模型和基于GLM的双语模型的内部训练,稍后可能会开源。
问:VisualGLM-6B模型中的视觉相关参数只有1.6B,而相比之下,CogVLM-17B的视觉相关参数达到了11B(甚至超过了语言模型的7B参数)。
为什么要采用更大视觉参数的方法呢? 答:首先,通过大量的实验,我们得出的结论是,更多的参数对于视觉多模态模型很重要。
此前有一种观点认为,视觉并不需要大型模型。
因为人们在一些传统数据集(如ImageNet-1k等)上做了验证,发现模型的性能提升似乎并不是很大。
但之所以会出现这种现象,是因为传统数据集中的测试样本大多过于简单,小模型就足以处理此类问题。

然而,人类世界中的视觉模型需要识别的东西远不止几千、几万种,比如各种品牌商标、名人外貌、地点、动植物类别、商品类别等,不可能一蹴而就。
值得记住的小模型;同时,在这种“开放词典”的设置下,随着可能的类别增加,出错的概率也会增加。
我们做了一些实验,发现对于这些真实场景的问题,放大模型往往会带来非常明显的性能提升。
当然,还有一个原因是,之前的大型视觉模型往往是闭源的,大多数人很难真正体验到模型尺寸带来的性能差异。
基于此,虽然CogVLM在性能上已经超越了很多大公司的闭源模型(如PaLI、PaLM-E、BEiT-3、GIT2等),但我们仍然选择像VisualGLM一样开源。
我们希望通过开源进一步推动多模态模型在研究和工业应用方面的发展。
问题:当我们使用图像和文本理解模型时,模型经常会给出一些图片中未包含的信息。
如何减少模型的这种错觉? 答:模型出现幻觉,根源还是在于模型能力不足。
以前的多模态模型,无论是 MiniGPT-4、VisualGLM-6B 还是 LLaVA,通常描述图像中明显不存在的物体或颜色错误的物体。
本质是模型无法识别一些特殊的视觉表示,从而遵循场景中常见物体的先验输出。
对此,通过具体的微调,模型会对不确定的物体输出“不清楚”,以减少幻觉,提高用户体验。
当然,这并不能完全消除幻觉,但可以大大降低产生幻觉的频率。
解决幻觉的另一个有效方法是使用更大的参数和更多的训练量。
经过这两个程序后,CogVLM的幻觉已经降低到了一个相对较低的水平。
问:从CogView、CogVideo到VisualGLM、RDM、CogVLM等,您的工作一直在促进图像理解、视频理解、图像生成和视频生成。
为什么坚持做多模态基础模型? 答:无论是真实的还是虚拟的界面感知和交互,主要都是以视觉为媒介。
当前的大语言模型虽然有了智能的出现,但它仍然被关在“笼子”里,与世隔绝。
一个完整的智能代理必须具有多模态理解。
多模态理解是智能发展和应用的必由之路。
正是基于同样的认识,智谱AI希望在这个方向上找到出路。
雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态