首页 > 科技未来 > 内容

最厉害的开源大模型深夜爆炸!马斯克喜欢《骆驼3王者归来》,与GPT-4一样接近-附体验链接

发布于:2024-06-21 编辑:匿名 来源:网络

不出意外,Meta带着Llama 3系列模型来“炸街”,被誉为“史上最强大的开源大型模型”。

具体来说,Meta开源了8B和70B两种不同尺寸的型号。

Llama 3 8B:基本上与最大的 Llama 2 70B 一样强大。

Llama 3 70B:一级AI模型,媲美Gemini 1.5 Pro,全面超越Claude。

大杯及以上只是Meta的开胃菜,真正的盛宴还在后头。

未来几个月,Meta将陆续推出一系列具有多模态、多语言对话、更长上下文窗口等能力的新模型。

其中,超B级重量级选手有望与Claude“掰手腕”3次超级杯。

Llama 3体验地址:GPT-4关卡模型来了,Llama 3开放。

与上一代Llama 2车型相比,Llama 3可以说达到了一个新的水平。

得益于预训练和训练后的改进,本次发布的预训练和指令微调模型是当今8B和70B参数尺度上最强大的模型。

同时,训练后过程的优化也显着降低了模型的错误率。

,增强了模型的一致性并丰富了响应的多样性。

扎克伯格曾在公开演讲中透露,考虑到用户不会向Meta AI询问有关WhatsApp中编码的问题,Llama 2在这方面的优化并不突出。

这次,Llama 3 在推理、代码生成和跟随指令方面实现了突破性改进,使其更加灵活和易于使用。

基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试中的得分远高于 Google Gemma 7B 和 Mistral 7B Instruct。

用扎克伯格的话说,最小的Llama 3基本和最大的Llama 2一样强大。

Llama 3 70B跻身顶级AI模型之列。

其整体表现全面超越Claude3杯。

与Gemini 1.5 Pro相比,是双赢的局面。

为了准确研究基准下的模型性能,Meta 还开发了新的高质量人类评估数据集。

该评估集包含涵盖 12 个关键用例的提示:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、角色、开放式问答、推理、重写和总结。

为了防止 Llama 3 在这个评估集上过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。

在与Claude十四行诗、Mistral Medium和GPT-3.5的一对一比赛中,Meta Llama 70B以“压倒性的胜利”结束了比赛。

据Meta官方介绍,Llama 3在模型架构上选择了相对标准的纯解码器Transformer架构。

与 Llama 2 相比,Llama 3 有几个关键改进:Llama 3 使用具有 K 个 token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显着提高模型性能。

8B 和 70B 模型均采用分组查询注意力(GQA)来提高 Llama 3 模型的推理效率。

在标记序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。

从一开始,Meta Llama 3 就被设计为最强大的模型。

Meta 在预训练数据上投入了大量资金。

据悉,Llama 3使用了超过15T从公开来源收集的代币,是Llama 2使用的数据集的7倍,其包含的代码数据是Llama 2的4倍。

考虑到多语言的实际应用,Llama 3 预训练数据集超过 5% 由覆盖 30 多种语言的高质量非英语数据组成。

不过,Meta 官方也承认,与英语相比,这些语言的性能预计会稍逊一筹。

为了确保 Llama 3 接受最高质量数据的训练,Meta 研究团队甚至使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器提前预测数据质量。

值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇的出色,因此他们让 Llama 2 为 Llama 3 支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI” ”。

除了训练质量之外,Llama 3在训练效率上也实现了质的飞跃。

Meta透露,为了训练最大的Llama 3模型,他们结合了三种类型的并行化:数据并行化、模??型并行化和管道并行化。

在 16K GPU 上同时训练时,每个 GPU 的计算利用率可达到 TFLOPS 以上。

研究团队在两个定制的 24K GPU 集群上进行了训练。

为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。

此外,Meta还大大提高了硬件可靠性和静默数据损坏检测机制,并开发了新的可扩展存储系统来减少检查点和回滚的开销。

这些改进使整体有效训练时间超过95%,也使Llama 3的训练效率比上一代提高了约3倍。

更多技术细节请查看Meta官方博客:VS闭源作为Meta的“儿子”,Llama 3也很自然地融入到了AI聊天机器人Meta AI中。

追溯到去年的Meta Connect大会上,扎克伯格在会上正式宣布推出Meta AI,随后迅速向美国、澳大利亚、加拿大、新加坡、南非等地区推广。

在此前的采访中,扎克伯格对Llama 3搭载的Meta AI更加充满信心,称这将是人们可以免费使用的最智能的AI助手。

我认为这将从类似聊天机器人的格式转变为一种你只需提出问题它就会给你答案的格式,你可以给它更复杂的任务它会完成这些任务。

附上Meta AI网页体验地址:如果AI“尚未在您的国家/地区上线”,您可以使用开源模式最简单的使用渠道——Hugging Face,全球最大的AI开源社区网站。

附试用地址:其他平台也很快宣布将Llama 3集成到平台服务中。

您还可以通过调用开源模型平台的Replicate API接口来体验Llama 3。

其使用价格也已曝光,大家不妨按需使用。

有趣的是,在Meta正式公布Llama 3之前,眼尖的网友就发现微软的Azure市场盗用了Llama 3 8B Instruct版本。

然而,随着消息的进一步传播,当网友蜂拥而至试图再次访问该链接时,我得到的只是“”页面。

目前已恢复:3的到来正在社交平台X上掀起新的讨论风暴。

Meta AI首席科学家、图灵奖得主Yann LeCun不仅为Llama 3的发布喝彩,还再次预测将会有更多版本发布在接下来的几个月内推出。

就连马斯克也出现在评论区,用简洁含蓄的“还不错”表达了对骆驼3的认可和期待。

NVIDIA 高级科学家 JIm Fan 将注意力集中在即将推出的 Llama 3 B+ 上。

在他看来,Llama 3的推出已经脱离了技术的进步,是开源模式和顶级闭源模式的象征。

从其分享的基准测试可以看出,Llama 3 B+的实力几乎可以与Claude超级杯和新版GPT-4 Turbo相媲美。

虽然还有一定的差距,但足以证明它在顶级大车型中占有一席之地。

今天恰逢斯坦福大学教授、人工智能顶级专家吴恩达 (Andrew Ng) 的生日。

Llama 3的到来无疑是庆祝他生日最特别的方式。

不得不说,如今的开源模式真是百花齐放、百家争鸣。

今年年初,在接受 The Verge 采访时,拥有 35 万个 GPU 的扎克伯格用坚定的语气描述了 Meta 的愿景——致力于打造 AGI(通用人工智能)。

与不开放的OpenAI形成鲜明对比的是,Meta沿着开源路线向AGI的圣杯发起了冲锋。

正如扎克伯格所说,致力于开源的Meta在这段充满挑战的旅程中并非没有收获:我总体上非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。

过去一年,整个AI圈子一直围绕开源还是闭源路线争论不休。

这场争论已经超越了技术层面的优劣对比,触及了人工智能未来发展的核心方向。

最厉害的开源大模型深夜爆炸!马斯克喜欢《骆驼3王者归来》,与GPT-4一样接近-附体验链接

就连亲自被免职的马斯克,也通过开源Grok 1.0为世界树立了榜样。

不久前,有观点称开源模式将越来越落后。

如今羊驼3号的到来,也给了这种悲观的观点一记响亮的耳光。

然而,虽然 Llama 3 给开源模式带来了一些严重的缓解,但开源与闭源的争论还远未结束。

毕竟,正在秘密准备推出的GPT-4.5/5可能会在今年夏天以无与伦比的性能结束这场旷日持久的争论。

最厉害的开源大模型深夜爆炸!马斯克喜欢《骆驼3王者归来》,与GPT-4一样接近-附体验链接

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 谁将成为北交所首个股票孵化器?

    谁将成为北交所首个股票孵化器?

    作者|杜航编辑|刘二来源|直通北京证券交易所 2019年12月16日,上海欣泽创业投资管理股份有限公司在全国中小企业股份转让系统挂牌。 从此,新泽创业又多了一个名字——国内首家新三板挂牌的众创空间。 五年后,这家创造历史的众创空间选择在新年伊始终止在新三板挂牌。 紧随

    06-18

  • 宇宙最强CRO的崛起,是“保守主义”的胜利

    宇宙最强CRO的崛起,是“保守主义”的胜利

    如何成为*CRO?Medpace崛起的故事给市场带来了不同的答案:“保守主义”或许更可靠。 Medpace的保守体现在两点:一方面,公司坚持只服务接受自己理念的客户,即从第一阶段到最终关键临床终点都可以委托给公司的一站式服务;另一方面,公司对客户比较挑剔,更倾向于选择资金实力

    06-18

  • 我去参加了中国最大的Web3聚会,发现人们想要的并不是Web3

    我去参加了中国最大的Web3聚会,发现人们想要的并不是Web3

    01。 危险的气氛顿时变得凝重起来。 面前的漂亮女孩不经意地皱起了眉头,盯着朋友递给她的手机屏幕,不知道该输入什么。 10秒前,我们坐在这家咖啡馆里开心地聊天,气氛很融洽,直到我们提出互发微信。 时间静止了片刻。 一位在国外加密货币交易所工作的女孩略显尴尬地解释道

    06-18

  • 贾跃亭要回中国了?

    贾跃亭要回中国了?

    日前,乐视向媒体发出邀请函,宣布将于5月18日举办乐视智能生态大会,并通过乐视超级卫视、乐视视频进行现场直播。 值得注意的是,请柬上有一个挥手的人影,与贾跃亭十分相似,而且还写着“我回来了!”。

    06-17

  • 「奇奇科技」获数千万美元A轮融资

    「奇奇科技」获数千万美元A轮融资

    「奇奇科技」完成数千万美元A轮融资,老虎基金领投,宽带资本跟投,寰亚资本独家投资。 奇奇科技成立于今年7月,面向现代服务业,专注于项目管理平台、成本控制管理平台和管理会计平台。

    06-17

  • 亚马逊云部门推出新芯片与英特尔、英伟达竞争

    亚马逊云部门推出新芯片与英特尔、英伟达竞争

    亚马逊公司的云计算部门周二推出了两款新的定制计算芯片,旨在帮助其客户降低使用英特尔和英伟达芯片的成本。 亚马逊年销售额达7亿美元,是全球最大的云计算提供商,也是数据中心芯片的最大买家之一,AWS将其计算能力出租给其客户。 自 2016 年收购一家名为 Annapurna Labs 的

    06-08

  • 天地一号,广东人支持的IPO

    天地一号,广东人支持的IPO

    广东常见饮料要IPO了。 投资界——天天IPO获悉,天地一号已于近日向证监会广东监管局提交公司公开发行股票并在深交所主板上市的辅导材料和备案材料。 指导机构为中信证券。 20世纪90年代,陈生偶然了解到一种新的饮用方式“雪碧加醋”。 他立刻意识到了巨大的市场前景,随后创

    06-18

  • 云原生:新生产力的飞跃

    云原生:新生产力的飞跃

    关键词:云原生创建者:阿里巴巴研究院、中国信息通信研究院、阿里云联合发布日期:2020年4月报告简介什么样的企业是数字原生企业?企业如何通过云原生架构实现向数字原生的跨越?如何加速全社会数字化创新进程?阿里巴巴研究院、中国信息通信研究院、阿里云联合发布云原生产

    06-18

  • 首次发布 -维京资本联合Egretia、InVault共同发起成立业界首支区块链游戏产业协同管理基金

    首次发布 -维京资本联合Egretia、InVault共同发起成立业界首支区块链游戏产业协同管理基金

    投资界(微信ID:pedaily)9月7日消息,维京资本宣布将与HTML5区块链联手引擎及平台Egertia与数字资产管理平台InVault共同发起设立业界首支区块链游戏产业协同管理基金(以下简称“维京游戏产业基金”)。 该基金将依托维京资本的专业投研能力,以及Egertia在游戏行业的深厚背

    06-17

  • 新世嘉获新一轮战略投资,中微半导体投资

    新世嘉获新一轮战略投资,中微半导体投资

    投资社区(ID:pedaily)6月16日报道,深圳市新世嘉半导体科技有限公司(以下简称:新世嘉)近日获得新一轮战略投资的战略投资。 A轮战略投资,投资方为中微电子。 投后估值未披露,占比4.95%。 据了解,中微半导体是科创板上市公司。 是一家立足中国、面向世界的微加工高端装

    06-18

  • 光大控股最新业绩出炉:一年退出51个项目,收回现金77亿港元

    光大控股最新业绩出炉:一年退出51个项目,收回现金77亿港元

    据投资界3月19日消息,中国光大控股股份有限公司(简称“光大”、股票代码:.HK)公布截至12月31日止年度业绩。 面对2019年充满挑战的宏观经济和私募行业形势,光大控股顺应时代潮流,快速推进战略转型,实施了多项迅速采取措施。 全年基金管理规模约1亿港元,较年底增长9%,

    06-17

  • 对外投资合作指南(美国)——数字经济发展及相关规定

    对外投资合作指南(美国)——数字经济发展及相关规定

    1 数字基础设施情况 1.1 网络基础能力 美国是全球最早开展5G商用的国家之一。 截至年底,美国5G信号已覆盖75%的人口。 美国运营商早期部署的5G网络大多使用毫米波。 为推动5G网络发展,美国政府于今年8月启动5G频谱拍卖计划,并逐步向市场释放部分军用中频段。 2020年7月1日世

    06-18