1月26日,阿里云公布了多模态大模型的研究进展。
通义千要求视觉理解模型Qwen-VL再次升级。
继Plus版本之后,Max版本再次推出。
升级后的模型具有更强的视觉推理能力和中文理解能力。
它可以根据图片识别人、回答问题、创建、编写代码,并且在多项权威评测中取得了优异的成绩,可与OpenAI的GPT-4V和谷歌的Gemini Ultra相媲美。
LLM(大语言模型)之后,大模型领域的下一个热点是什么?多模态是目前最共识的方向。
过去六个月,OpenAI、谷歌等纷纷推出多模态模型。
阿里云还在今年8月发布并开源了具有图像和文本理解能力的Qwen-VL模型。
Qwen-VL取得了远远超过同期同规模一般模特的成绩。
表现。
视觉是多模态能力中最重要的模态。
作为人类感知和认识世界的第一感官,视觉传递的信息占“五感”信息的80%。
通义千问LLM视觉语言模型是在通义千问LLM的基础上开发的。
通过将视觉表征学习模型与LLM对接,赋予AI理解视觉信息的能力,在大语言模型的“头脑”中打开一扇视觉“窗口”。
与Qwen-VL相比,Qwen-VL-Plus和Qwen-VL-Max具有更强的视觉推理和中文理解能力,整体性能与GPT-4V和Gemini Ultra相当。
在MMMU、MathVista等评测中远远超越业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到全球最佳水平。
基础能力方面,升级后的模型能够准确描述和识别图片信息,并基于图片进行信息推理和拓展创作;它具有视觉定位功能,还可以对图片的指定区域进行问答。
在视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式的图片,并可以分析复杂的图标。
看图答题、看图作文、看图写代码都没问题。
在看图、做题的图像文字处理方面,Qwen-VL升级版Qwen-VL的中英文文字识别能力得到了显着提升。
它支持百万像素以上的高清分辨率图像和极端宽高比的图像,并且可以充分再现表示密集的文本并从表格和文档中提取信息。
Qwen-VL-Max 再现了密集的文本。
与LLM相比,多模态大模型具有更大的应用想象空间。

例如,一些研究人员正在探索大型多模态模型与自动驾驶场景的结合,寻找“完全自动驾驶”的新技术路径;将多模态模型部署到手机、机器人、智能音箱等端侧设备上,让智能设备自动理解来自物理世界的信息;或者基于多模态模型开发应用,辅助视障人士日常生活等。
目前,Qwen-VL-Plus 和 Qwen-VL-Max 限时免费。
用户可以在通义千文官网和通义千文APP直接体验Max版模型的能力,也可以通过阿里云灵机平台(DashScope)调用模型API。
雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
站长声明
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件
举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
-
据投资界(ID:pedaily)1月10日消息,近日,华盖资本完成华盖医疗早期募资规模约8亿元,超额完成5亿元。 目标尺寸。 该基金得到了保险等金融机构、政府引导基金、知名母基金、医疗上市公司等专业投资者的支持。 华盖医疗早期基金的设立将加大华盖医疗的早期投资布局。 这是
06-18
-
11月21日,斗鱼发布公告称,公司CEO陈少杰于2016年11月16日左右被成都警方抓获,公司尚未收到正式通知对陈先生进行调查的通知或陈先生明显被捕的原因。 陈先生的持续拘留以及随后针对相关方的任何相关法律诉讼和执法行动可能会对公司的声誉、业务和经营业绩产生重大不利影响。
06-18
-
投资界消息,体育赛事数据互动公司天中体育宣布完成过万元A+轮融资,耀威资本领投,北极光跟投风险投资继续跟进。 融资后,天中体育将对接更多国内外体育、电竞赛事和明星IP,尝试从会员充值、广告、衍生品销售、折扣四个方面增加互动平台的收入。 天中体育成立于2007年,
06-17
-
投资圈(微信ID:pedaily)12月29日,诺尔医疗NeuroEchos宣布完成3000万元Pre-A轮融资Pre-A轮融资。 由澳银资本和元盛创投共同投资,现有股东跟投。 诺尔医疗创始人杨欢表示,本轮融资后,诺尔医疗将加快诺尔全球首个3.0T磁共振兼容SEEG电极的临床试验和产品注册,以及后续多
06-17
-
金秋云季,阿里云邀请内部科技产品专家及知名KOL、投资人等行业人士打造40余场精彩直播活动,涵盖中小企业产品和解决方案解读、AI浪潮、企业出海、数字原生、专题活动五大主题。 中小企业不仅可以了解前沿技术和最新创业趋势,还可以分享“云+AI”时代的最佳云实践。 请预约观
06-18
-
5月14日,茉莉智慧母婴护理中心携手权威商业媒体福布斯中国举办“Her 3.0时代”智慧女性峰会暨福布斯杂志中国《中国月子3.0时代白皮书》启动大会。 中国妇幼保健协会宋副会长、中国康复医学会产后康复专业委员会秘书长任宝申、中国旅游饭店协会人力资源分会秘书长郭瑞环等行业
06-18
-
森林很大,什么鸟都有。 近日,伊朗政府发布了一款声称能够检测新冠病毒的应用程序。 有趣的是,该应用程序推出后不久就被正式从 Google Play 商店下架。 雷锋网注:图片来源为Google Play商店中一个有争议的App。 据 ZDnet 报道,谷歌已从其 Play 商店中删除了一款由伊朗政府
06-17
-
投融资昨天,国内市场共发生11起投资披露事件,其中先进制造4起(诺雷科技、格云、一嘉3D、腾盛),本土3起生活案例1个(郭氏花旦茶、快金店、川都拉)、电商零售案例2个(ZPilot、爱普西提)、娱乐传媒案例1个(可尼集团)、元宇宙1个(糖立方星球)。 入选元宇宙SaaS服务商
06-18
-
据投资界12月5日消息,人工智能整体解决方案公司Aibee宣布完成A1轮10,000美元的融资。 成立两年后,Aibee累计融资超过1.7亿美元,跻身“准独角兽”阵列。 据Aibee创始人和首席执行官林元庆博士介绍,本轮融资将主要用于公司团队扩张、业务发展促进和商业落地加速。 本轮融资
06-17
-
投资社区(ID:pedaily)领投 4月26日消息,全新男士潮流美容品牌“Tabula Rasa”(以下简称“Tabula Rasa”) TR”)正式宣布完成数百万天使轮融资。 本轮融资由光速中国领投,华星阿尔法担任本次融资的独家保荐人。 本轮募集资金将用于产品研发、品类拓展、营销推广、团队建
06-18
-
如果按照食物在网络上的分享次数来编制一份网红美食排行榜,其竞争程度应该不亚于《明星人气榜》。 每隔几个月,就会发生一次网红美食大轮换。 凭借“闻起来香、吃起来香”味蕾碰撞上榜的柳州螺蛳粉尚未站稳脚跟,却迎来了南昌拌面的“跨省挑战”;以健康之名的无糖汽水 水还
06-21
-
据36氪6月22日消息,联想智能通信宣布获得国有资本和产业资本投资的B轮融资,本轮融资金额超亿元。 元。 联想通讯CFO周利军在6月22日举行的投资者沟通会上透露,本次获得的资金将继续加大5G云平台、eSIM技术、车联网平台的研发力度,加大数据智能和人工智能的投入。 投资,在
06-18
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投