1月26日,阿里云公布了多模态大模型的研究进展。
通义千要求视觉理解模型Qwen-VL再次升级。
继Plus版本之后,Max版本再次推出。
升级后的模型具有更强的视觉推理能力和中文理解能力。
它可以根据图片识别人、回答问题、创建、编写代码,并且在多项权威评测中取得了优异的成绩,可与OpenAI的GPT-4V和谷歌的Gemini Ultra相媲美。
LLM(大语言模型)之后,大模型领域的下一个热点是什么?多模态是目前最共识的方向。
过去六个月,OpenAI、谷歌等纷纷推出多模态模型。
阿里云还在今年8月发布并开源了具有图像和文本理解能力的Qwen-VL模型。
Qwen-VL取得了远远超过同期同规模一般模特的成绩。
表现。
视觉是多模态能力中最重要的模态。
作为人类感知和认识世界的第一感官,视觉传递的信息占“五感”信息的80%。
通义千问LLM视觉语言模型是在通义千问LLM的基础上开发的。
通过将视觉表征学习模型与LLM对接,赋予AI理解视觉信息的能力,在大语言模型的“头脑”中打开一扇视觉“窗口”。
与Qwen-VL相比,Qwen-VL-Plus和Qwen-VL-Max具有更强的视觉推理和中文理解能力,整体性能与GPT-4V和Gemini Ultra相当。
在MMMU、MathVista等评测中远远超越业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到全球最佳水平。
基础能力方面,升级后的模型能够准确描述和识别图片信息,并基于图片进行信息推理和拓展创作;它具有视觉定位功能,还可以对图片的指定区域进行问答。
在视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式的图片,并可以分析复杂的图标。
看图答题、看图作文、看图写代码都没问题。
在看图、做题的图像文字处理方面,Qwen-VL升级版Qwen-VL的中英文文字识别能力得到了显着提升。
它支持百万像素以上的高清分辨率图像和极端宽高比的图像,并且可以充分再现表示密集的文本并从表格和文档中提取信息。
Qwen-VL-Max 再现了密集的文本。
与LLM相比,多模态大模型具有更大的应用想象空间。

例如,一些研究人员正在探索大型多模态模型与自动驾驶场景的结合,寻找“完全自动驾驶”的新技术路径;将多模态模型部署到手机、机器人、智能音箱等端侧设备上,让智能设备自动理解来自物理世界的信息;或者基于多模态模型开发应用,辅助视障人士日常生活等。
目前,Qwen-VL-Plus 和 Qwen-VL-Max 限时免费。
用户可以在通义千文官网和通义千文APP直接体验Max版模型的能力,也可以通过阿里云灵机平台(DashScope)调用模型API。
雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
站长声明
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件
举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
-
2020 年 10 月 31 日 - MacDermid Performance Solutions 宣布将整合 Alpha Assembly Solutions 和 MacDermid Enthone 电子解决方案业务部门,并于 2020 年 1 月 1 日生效成立 MacDermid Alpha Electronics Solutions,这是一家价值 12 亿美元的电子化学品和组装材料业务部门
06-06
-
投资圈(ID:pedaily)据1月29日消息,元元新能源商用车集团醇氢科技宣布完成首轮融资首轮融资并引入多家策略投资者和知名投资机构,融资金额1亿美元,投前估值10亿美元。 本轮融资将主要用于甲醇绿色运输能力的持续研发投入和生态建设,进一步提升公司核心竞争力。 首轮融资
06-18
-
中能联合数字科技有限公司已完成C2、C3两轮融资。 其中,C2轮融资由源码资本领投,不虎创投跟投; C3轮融资由五星控股领投,上海市北高新、一美资本、不虎创投、源码资本、瑞橡资本(中远海运金控旗下)、一博金融跟投。 C轮股权及债权融资总额超过30亿元。
06-17
-
苹果(AAPL.O) 北京时间2020年2月2日凌晨,美国股市发布2020年第一季度财报收盘后的财政年度(截至 2020 年 12 月)。 1、整体业绩:营收及毛利率略超预期。 本季度,苹果实现营收 1 亿美元,同比增长 2.1%,略超市场一致预期(1 亿美元)。 收入增长主要由 iPhone 和服务收入
06-18
-
对于上班族父母来说,出差前或许都经历过孩子的不舍、泪眼婆娑、可怜巴巴的小眼神……这是常有的事遗憾不能一直陪伴孩子,见证他们的成长。 在阿里云创新中心的众多创业者中,王不凡也深深体会到无法给予孩子更多陪伴的遗憾。 由于创业期间经常出差,他对不能时时陪伴孩子感到
06-18
-
上头条5月8日消息近日,东方嘉富与浙江省桐庐经济开发区共同发起的桐庐产业发展母基金正式成立,基金规模10亿元。 据悉,该基金将采取子基金+直投的形式,投资于智能制造、新材料新能源、生命健康等新兴行业的成长型企业。 桐庐经济开发区相关人士表示,桐庐产业发展母基金将
06-17
-
投融资昨天,国内市场共发生12起投资披露事件,其中先进制造业3起(讯翼卫通、鸿亿信、新耀图)、电商零售3起(读者、利多多、盖什英雄)、医疗健康案例3个(佳佳查、一能医药、孔彪)、企业服务2个(智绘、天然机器人)、传统制造1个起(宏海润滑油)。 精选机械润滑油研发及
06-17
-
为了帮助企业保护App端和IoT端的安全,安全技术品牌ZOLOZ蚂蚁集团旗下,此前已推出终端安全产品。 5月27日,ZOLOZ宣布旗下终端安全产品引入业界领先的“安全并行切片技术”。 这也是业内首款拥有该技术的终端安全产品,将更好地保障企业的安全。 数字化升级可以帮助企业更高
06-18
-
据投资界(ID:PEdaily)4月22日消息,专注于为7-15岁学生提供在线汉语培训课程的马桥语言,宣布正式完成天使轮融资。 本轮由伟烈资本、高章资本、北塔资本共同投资。 麻将语言在半年内完成了两轮融资。 对于本轮融资,麻雀中文表示,将重点打磨“教学、实践、考核”的闭环,
06-17
-
你打开“”了吗?往年的除夕夜,年夜饭和春节联欢晚会是两项传统活动。 近两年来,马云-爸爸支付宝“集五福”活动抽奖已逐渐成为第三大项目,吸引了数亿人参与。 2020年1月27日(除夕)晚22时18分,支付宝公布了历时2个多月、价值2亿元的大型项目的最终成果。 在无数参与者中
06-18
-
传奇已经落下帷幕,嚣张的黑莓终于放弃了手机业务。 记忆好的朋友可能还记得,一年前,黑莓CEO陈约翰向手机业务发出最后通牒:如果今年第二季度不能实现盈利,手机业务部门将被关闭。 果不其然,随着最新一季度业绩不佳的财报数据出炉,黑莓正式宣布关闭智能手机业务。 受此影
06-17
-
瑞兰科技近日宣布完成近亿元A+轮融资,由老股东杏泽资本跟投现有股东杏泽资本、格罗资本连续担任财务顾问独家。 本轮融资将主要用于推动产品创新、扩大市场投资。
06-17
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投