谁将成为北交所首个股票孵化器?
06-18
不出意外,Meta带着Llama 3系列模型来“炸街”,被誉为“史上最强大的开源大型模型”。
具体来说,Meta开源了8B和70B两种不同尺寸的型号。
Llama 3 8B:基本上与最大的 Llama 2 70B 一样强大。
Llama 3 70B:一级AI模型,媲美Gemini 1.5 Pro,全面超越Claude。
大杯及以上只是Meta的开胃菜,真正的盛宴还在后头。
未来几个月,Meta将陆续推出一系列具有多模态、多语言对话、更长上下文窗口等能力的新模型。
其中,超B级重量级选手有望与Claude“掰手腕”3次超级杯。
Llama 3体验地址:GPT-4关卡模型来了,Llama 3开放。
与上一代Llama 2车型相比,Llama 3可以说达到了一个新的水平。
得益于预训练和训练后的改进,本次发布的预训练和指令微调模型是当今8B和70B参数尺度上最强大的模型。
同时,训练后过程的优化也显着降低了模型的错误率。
,增强了模型的一致性并丰富了响应的多样性。
扎克伯格曾在公开演讲中透露,考虑到用户不会向Meta AI询问有关WhatsApp中编码的问题,Llama 2在这方面的优化并不突出。
这次,Llama 3 在推理、代码生成和跟随指令方面实现了突破性改进,使其更加灵活和易于使用。
基准测试结果显示,Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试中的得分远高于 Google Gemma 7B 和 Mistral 7B Instruct。
用扎克伯格的话说,最小的Llama 3基本和最大的Llama 2一样强大。
Llama 3 70B跻身顶级AI模型之列。
其整体表现全面超越Claude3杯。
与Gemini 1.5 Pro相比,是双赢的局面。
为了准确研究基准下的模型性能,Meta 还开发了新的高质量人类评估数据集。
该评估集包含涵盖 12 个关键用例的提示:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、角色、开放式问答、推理、重写和总结。
为了防止 Llama 3 在这个评估集上过度拟合,Meta 甚至禁止他们的研究团队访问该数据集。
在与Claude十四行诗、Mistral Medium和GPT-3.5的一对一比赛中,Meta Llama 70B以“压倒性的胜利”结束了比赛。
据Meta官方介绍,Llama 3在模型架构上选择了相对标准的纯解码器Transformer架构。
与 Llama 2 相比,Llama 3 有几个关键改进:Llama 3 使用具有 K 个 token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显着提高模型性能。
8B 和 70B 模型均采用分组查询注意力(GQA)来提高 Llama 3 模型的推理效率。
在标记序列上训练模型,使用掩码确保自注意力不会跨越文档边界。
训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。
从一开始,Meta Llama 3 就被设计为最强大的模型。
Meta 在预训练数据上投入了大量资金。
据悉,Llama 3使用了超过15T从公开来源收集的代币,是Llama 2使用的数据集的7倍,其包含的代码数据是Llama 2的4倍。
考虑到多语言的实际应用,Llama 3 预训练数据集超过 5% 由覆盖 30 多种语言的高质量非英语数据组成。
不过,Meta 官方也承认,与英语相比,这些语言的性能预计会稍逊一筹。
为了确保 Llama 3 接受最高质量数据的训练,Meta 研究团队甚至使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器提前预测数据质量。
值得注意的是,研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇的出色,因此他们让 Llama 2 为 Llama 3 支持的文本质量分类器生成训练数据,真正实现了“AI 训练 AI” ”。
除了训练质量之外,Llama 3在训练效率上也实现了质的飞跃。
Meta透露,为了训练最大的Llama 3模型,他们结合了三种类型的并行化:数据并行化、模??型并行化和管道并行化。
在 16K GPU 上同时训练时,每个 GPU 的计算利用率可达到 TFLOPS 以上。
研究团队在两个定制的 24K GPU 集群上进行了训练。
为了最大限度地延长 GPU 的正常运行时间,研究团队开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。
此外,Meta还大大提高了硬件可靠性和静默数据损坏检测机制,并开发了新的可扩展存储系统来减少检查点和回滚的开销。
这些改进使整体有效训练时间超过95%,也使Llama 3的训练效率比上一代提高了约3倍。
更多技术细节请查看Meta官方博客:VS闭源作为Meta的“儿子”,Llama 3也很自然地融入到了AI聊天机器人Meta AI中。
追溯到去年的Meta Connect大会上,扎克伯格在会上正式宣布推出Meta AI,随后迅速向美国、澳大利亚、加拿大、新加坡、南非等地区推广。
在此前的采访中,扎克伯格对Llama 3搭载的Meta AI更加充满信心,称这将是人们可以免费使用的最智能的AI助手。
我认为这将从类似聊天机器人的格式转变为一种你只需提出问题它就会给你答案的格式,你可以给它更复杂的任务它会完成这些任务。
附上Meta AI网页体验地址:如果AI“尚未在您的国家/地区上线”,您可以使用开源模式最简单的使用渠道——Hugging Face,全球最大的AI开源社区网站。
附试用地址:其他平台也很快宣布将Llama 3集成到平台服务中。
您还可以通过调用开源模型平台的Replicate API接口来体验Llama 3。
其使用价格也已曝光,大家不妨按需使用。
有趣的是,在Meta正式公布Llama 3之前,眼尖的网友就发现微软的Azure市场盗用了Llama 3 8B Instruct版本。
然而,随着消息的进一步传播,当网友蜂拥而至试图再次访问该链接时,我得到的只是“”页面。
目前已恢复:3的到来正在社交平台X上掀起新的讨论风暴。
Meta AI首席科学家、图灵奖得主Yann LeCun不仅为Llama 3的发布喝彩,还再次预测将会有更多版本发布在接下来的几个月内推出。
就连马斯克也出现在评论区,用简洁含蓄的“还不错”表达了对骆驼3的认可和期待。
NVIDIA 高级科学家 JIm Fan 将注意力集中在即将推出的 Llama 3 B+ 上。
在他看来,Llama 3的推出已经脱离了技术的进步,是开源模式和顶级闭源模式的象征。
从其分享的基准测试可以看出,Llama 3 B+的实力几乎可以与Claude超级杯和新版GPT-4 Turbo相媲美。
虽然还有一定的差距,但足以证明它在顶级大车型中占有一席之地。
今天恰逢斯坦福大学教授、人工智能顶级专家吴恩达 (Andrew Ng) 的生日。
Llama 3的到来无疑是庆祝他生日最特别的方式。
不得不说,如今的开源模式真是百花齐放、百家争鸣。
今年年初,在接受 The Verge 采访时,拥有 35 万个 GPU 的扎克伯格用坚定的语气描述了 Meta 的愿景——致力于打造 AGI(通用人工智能)。
与不开放的OpenAI形成鲜明对比的是,Meta沿着开源路线向AGI的圣杯发起了冲锋。
正如扎克伯格所说,致力于开源的Meta在这段充满挑战的旅程中并非没有收获:我总体上非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。
过去一年,整个AI圈子一直围绕开源还是闭源路线争论不休。
这场争论已经超越了技术层面的优劣对比,触及了人工智能未来发展的核心方向。

就连亲自被免职的马斯克,也通过开源Grok 1.0为世界树立了榜样。
不久前,有观点称开源模式将越来越落后。
如今羊驼3号的到来,也给了这种悲观的观点一记响亮的耳光。
然而,虽然 Llama 3 给开源模式带来了一些严重的缓解,但开源与闭源的争论还远未结束。
毕竟,正在秘密准备推出的GPT-4.5/5可能会在今年夏天以无与伦比的性能结束这场旷日持久的争论。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-17
06-08
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态