首页 > 科技未来 > 内容

阿里云大模型Qwen2开源了！免费下载！

发布于：2024-06-17 编辑：匿名来源：网络

阿里云大模型Qwen2开源了！免费下载！创云帮创云帮微信IDinvcloud关于特色广东创云科技有限公司是国内领先的云计算和安全增值分发服务提供商，广东省计算机信息网络安全与人工智能行业协会会员。

自2016年成立以来，一直以“帮助企业在云端创造更大价值”为使命，专注于云计算增值服务和信息网络安全服务，为企业提供全栈混合云及安全解决方案。

06-07 14:45 比美国开源Llama3和中国闭源模型更强的广东Qwen2今天开源，可以免费下载！下载地址：终于迎来了Qwen系列机型从Qwen1.5到Qwen2的重大升级。

此次阿里云为大家带来：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B等5种尺寸的预训练和指令微调模型；在中文和英文的基础上，训练数据中添加了27种语言相关的高质量数据；在多项评估基准上表现领先；编码和数学能力得到显着提高；上下文长度支持已增加，最多 K 个标记（Qwen2-72B-Instruct）。

目前阿里云已同步开源Hugging Face和ModelScope。

期待听到您的反馈！模型基本信息 Qwen2系列包含5种尺寸的预训练和指令微调模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

如下表所示：在Qwen1.5系列中，只有32B和B型号使用了GQA。

这次，各种规模的模型都使用了GQA，让大家能够体验到GQA带来的推理加速和减少内存占用的优势。

对于小型模型，由于embedding参数较多，阿里云采用tie embedding方法，让输入层和输出层共享参数，增加非embedding参数的比例。

在上下文长度方面，所有预训练模型都在 32K 个 token 数据上进行训练，我们发现当使用 K 个 token 时，它们仍然可以在 PPL 评估中取得良好的性能。

然而，对于指令微调模型，除了PPL评估之外，还需要大海捞针等长序列理解实验。

在这个表中，阿里云根据大海捞针的实测结果，列出了各指令微调模型支持的最大上下文长度。

当使用 YARN 等方法时，Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 都实现对最多 K 个令牌的上下文长度的支持。

阿里云投入了大量精力研究如何扩大多语言预训练和指令微调数据的规模和质量，从而提高模型的多语言能力。

虽然大语言模型本身具有一定的通用性，但阿里云还专门增强了除中文和英文之外的 27 种语言：此外，阿里云还专门优化了多语言场景下的通用语言转换（代码）。

switch）问题，目前模型中语言切换的概率大大降低。

阿里云对容易引发语言转换现象的提示词进行了测试，发现Qwen2系列模型在这方面的能力有明显提升。

模型评估与Qwen1.5相比，Qwen2在大规模模型上取得了非常显着的提升。

阿里云对Qwen2-72B进行了全面评测。

在预训练语言模型的评估中，与当前最好的开源模型相比，Qwen2-72B在自然语言理解、知识、代码、数学和多语言等多项能力上显着超越了当前领先的模型，例如Llama—— 3-70B和Qwen1.5最大的型号，Qwen1.5-B。

阿里云大模型Qwen2开源了！免费下载！

这得益于其预训练数据和训练方法的优化。

经过大规模的预训练，阿里云对模型进行微调，提高其智能性，使其性能更接近人类。

这个过程进一步提高了编码、数学、推理、指令跟随、多语言理解等能力。

此外，随着模型学会与人类价值观保持一致，它对人类变得更加有帮助、诚实和安全。

阿里云的微调过程遵循尽可能大规模的训练，同时尽可能减少人工标注的原则。

阿里云探索了如何使用各种自动化方法来获取高质量、可靠的创意指令和偏好数据，包括数学的拒绝采样、代码和指令遵循的代码执行反馈以及创意写作的反向翻译。

在训练方面，阿里云结合了监督微调、反馈模型训练、在线DPO等方法。

阿里云还使用在线模型合并来减少对齐税。

这些实践极大地提高了模型的基础能力和模型的智能水平。

阿里云在16项基准测试中综合评估了Qwen2-72B-Instruct的性能。

Qwen2-72B-Instruct在提高基础能力和符合人类价值观方面取得了很好的平衡。

与Qwen1.5的72B模型相比，Qwen2-72B-Instruct在所有评估中都大大超越了它，并取得了与Llama-3-70B-Instruct相当的性能。

就小型号而言，Qwen2系列型号基本可以超越同规模甚至更大型号的最佳开源型号。

与最近推出的最佳模型相比，Qwen2-7B-Instruct 在多项评估中仍能取得显着优势，尤其是在代码和中文理解方面。

亮点#代码和数学阿里云持续投资提高 Qwen 的编码和数学能力。

在代码方面，阿里云成功将CodeQwen1.5的成功经验融入到Qwen2的开发中，实现了多种编程语言的显着提升。

在数学方面，大规模、高质量的数据帮助Qwen2-72B-Instruct数学解题能力得到了大幅提升。

#长文本处理 Qwen2 系列中的所有 Instruct 模型均在 32k 上下文长度上进行训练，并通过 YARN 或 Dual Chunk Attention 等技术扩展到更长的上下文长度。

下图展示了阿里云 on the Needle 在 Haystack 测试集上的结果。

值得注意的是，Qwen2-72B-Instruct可以完美处理k上下文长度内的信息提取任务。

结合其强大的性能，只要你有足够的计算能力，它一定会成为你处理长文本任务的首选！此外，Qwen2系列其他型号的表现也非常出色：Qwen2-7B-Instruct几乎完美地处理高达k的上下文； Qwen2-57B-A14B-Instruct可以处理64k的上下文长度；而该系列中的两个型号较小的型号支持 32k 的上下文长度。

除了长上下文模型之外，阿里云还开源了一个代理解决方案，用于高效处理万个代币级别的上下文。

有关更多详细信息，请参阅阿里云有关该主题的博客文章。

安全性下表显示了在四种多语言不安全查询类别（非法活动、欺诈、色情、私人暴力）中生成有害响应的大型模型的比例。

测试数据来自Jailbreak，并被翻译成多种语言进行评估。

阿里云发现Llama-3在处理多语言提示方面表现较差，因此未将其纳入对比。

通过显着性检验（P值），阿里云发现Qwen2-72B-Instruct模型在安全性方面与GPT-4表现相当，并且明显优于Mixtral-8x22B模型。

使用 Qwen2，这些模型现已在 Hugging Face 和 ModelScope 上开源。

欢迎查阅模型卡了解具体的使用方法以及模型的更多信息，如特征、指标等。

长期以来，开源生态圈的朋友们一致支持Qwen的发展，包括微调（Axolotl、 LLaMA-Factory、Firefly、Swift、XTuner）、量化（AutoGPTQ、AutoAWQ、神经压缩器）和部署（vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVINO、TGI）、本地运行（MLX、Llama.cpp、Ollama、 LM Studio）、Agent和RAG（检索增强生成）框架（LlamaIndex、CrewAI、OpenDevin）、评估（LMSys、OpenCompass、Open LLM Leaderboard）、模型二次开发（Dolphin、OpenBuddy）。

如果您想了解更多如何在第三方框架中使用Qwen，欢迎您阅读各项目官方文档以及阿里云官方文档来了解更多！当然，还有很多一直帮助我们的朋友，这里没有提及。

阿里云衷心感谢大家的支持，阿里云也希望社区的合作能够共同推动开源AI的发展。

模型许可证阿里云此次使用了不同的模型许可证。

除Qwen2-72B仍使用之前的QwenWen License外，其他型号包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B和Qwen2-57B-A14B均使用Apache 2.0许可证。

阿里云希望这种开放性的增强能够加速Qwen2在全球的落地和商业应用。

Qwen2的下一步是什么？阿里云仍在训练更大的模型，并继续探索模型和数据的伸缩规律。

此外，阿里云还将Qwen2扩展为多模态模型，整合视觉和语音理解。

未来一段时间，阿里云将持续开源新的模型。

敬请关注！援引技术报道称，阿里云将在近期推出Qwen2。

欢迎报价！ @article{qwen2, title={Qwen2技术报告},year={}}继同易千文主力机型降价97%之后，阿里云的云迁移优惠又来了！针对企业上云，阿里云补贴5亿元。

同时，阿里云还准备了优惠券。

所有用户均可登录阿里云官网领取。

优惠券可叠加享受热门产品、GPU云服务器等AI产品折扣。

算力和人工智能产品也是如此。

云迁移带来的福利不断增加。

站长声明

标签：

上一篇：选择它！兰陵升级保险机构信用创造计划

下一篇：首次发布 -怀格资本完成第三期基金募集，募资规模突破3亿元

Stellantis致力于供应安全和创新

半导体核心技术编译Stellantis的战略包括与芯片制造商就关键半导体和零部件的采购达成协议，以及对未来芯片需求的全面了解。半导体是当今 Stellantis 汽车以及即将推出的新型先进 STLA 汽车和以纯电动汽车为中心的技术平台的性能、安全性和客户功能的关键。随着汽车行业对半

06-06
28亿，安徽首支S基金发起

投资界（ID：pedaily）消息，4月16日，安徽首支“S基金”——合肥共创接力创业投资基金合伙企业（有限合伙）完成注册成立兴泰资本牵头设立并担任基金管理人，规模28亿元。是合肥市国有“3+N”系列产业基金的重要组成部分。在合肥市国资委统筹协调下，兴泰资本携手合肥百达、

06-17
厦门科技创新基金扩大至300亿元

投资界（ID：pedaily）3月1日消息，为贯彻落实中央、省、市经济工作会议精神，鼓励扩大产业有效投资，为引导企业加快扩大产能，近日，厦门市财政局、厦门市工业和信息化局联合下发《关于进一步完善技术创新基金支持企业增资扩产的通知》。《关于进一步完善技术创新基金支持企

06-18
创业不是单打独斗，团队是创业的基础

创业从来都不是一件容易的事，大多数创业都会失败，人们总是看到成功人士的成功，却忽略了他们背后的曲折和奋斗。大众创业时代如何成功创业？今天的故事从一个“随机”的公司名称开始。 2006年，张涛和他的朋友们创立了安徽灵客网络科技有限公司。创立灵客的初衷是利用互联

06-18
研究显示：字节跳动可能是最吸引求职者的公司

3月29日，中国青年报发布的一份求职问卷调查显示，大学生最兴奋的前三名公司是字节跳动和华为。和阿里巴巴。这是中国青学传媒向全国知名大学生人士发起的“大学生求职潜力”问卷调查。此前，脉脉数据研究院的分析也指出，“字节跳动是求职者最关注的公司，其人才需求约为第

06-17
CloudX产业数字化丨阿里云星云创业扶持计划-数智未来·智能制造升级新图景活动沙龙成功举办！

8月27日，“阿里云星云创业扶持计划——数智未来智能制造升级新图景”在线上成功举办。本次活动由重庆两江新区经济运行局、重庆两江新区科技创新局指导，阿里云创新中心、重庆轻控科创技术服务有限公司承办。本次沙龙邀请阿里云创新中心渠道合作总监张宇作为活动嘉宾，阿里

06-17
助力梦想vivo与宋仲基同行，恭喜考生考入高考金榜

从2014年开始，vivo连续两年在高考期间开展#助力梦想vivo同行#活动，助力学子高考期间实现梦想，联合线下数十万家vivo专卖店，共同寻找当地的高考状元，并送给他一部手机作为鼓励。这两年，我们帮助了当地的高考状元，覆盖了全国很多城市。不仅获得了业界的一致好评，也取得

06-18
广州实业投资集团领投中科航天投资5亿元，打造南方商业航天重要制造基地

投资圈（ID：pedaily）据4月23日消息，广州实业投资集团近期投资500领投广州中科航天航天探索技术有限公司（以下简称中国航天）C轮融资万元。这是广州实业投资集团在商业航天领域的战略投资项目之一。中国航天是由中国科学院力学研究所培育和孵化的。主要从事空间技术探索

06-18
vivo新旗舰曝光，这款手机有一个什么样的“镜像世界”

今日，vivo在官方微博晒出一张图片，称“探索新镜像世界，vivo新旗舰”，暗示vivo新旗舰手机，专注于拍照，即将发布。 vivo发布的图片显示了两颗类似透镜的行星。这是否意味着这款新旗舰将配备双镜头？事实上，如果vivo新旗舰配备双镜头，也就不足为奇了。因为vivo这几年一

06-17
微软对OpenAI的投资或将受到欧盟反垄断审查；董宇辉新账号《与辉同行》首播，位列抖音带货榜第一；美国52年来首次登月

微软投资OpenAI或将受到欧盟反垄断审查。 1月10日消息，欧盟反垄断监管机构欧盟委员会周二表示，微软对AI聊天机器人ChatGPT开发商OpenAI的财务支持可能会受到欧盟并购法规的约束。去年，微软承诺向 OpenAI 投资超过 1 亿美元，但不会获得投票权。微软还表示，它不拥有 Open

06-17
国家外汇管理局：4月份外资净增持境内股票和债券195亿美元，同比增长3%

国家外汇管理局副局长新闻发言人王春英：供给4月份我国外汇市场需求更加平衡。跨境双向投资合理有序。从流入渠道看，对华直接投资净流入保持稳定增长；外资净增持境内股票和债券1亿美元，同比增长3%。从流出渠道看，我国外商直接投资净流出规模与去年同期基本持平；港股通

06-18
压垮创业者的三座大山

近日，《中国企业家》杂志采访了“花加”创始人王柯，标题是《花加创始人：微信仅剩的23块零钱也被封了》。我很高兴业界能够如此高度关注创业家的现状。今天的创新创业发展到了新的高度，但也积累了尖锐的问题。我们要把问题摆到桌面上来，充分沟通，友好地一一解决。文章

06-18