首页 > 科技未来 > 内容

盘点开源模型进展：最新的Mixtral、Llama 3、Phi-3、OpenELM有多好？

发布于：2024-06-18 编辑：匿名来源：网络

在这篇富有洞察力的文章中，我们深入探讨了开源语言模型的最新进展，特别关注了在人工智能语言处理方面取得突破的 Children、Llama 3、Phi-3 和 OpenELM 模型。

Mixtral采用混合专家模型，对传统前馈层进行创新； Llama 3扩大了词汇量，改进了注意力机制；微软的Phi-3模型强调数据质量而不是数据数量；苹果的 OpenELM 套件是专为移动设备上的小语言模型而设计的，反映了行业向更易于访问的人工智能技术发展的趋势。

文章还讨论了 PPO 和 DPO 在对齐大型语言模型方面的优势，这对于开发人员和研究人员来说是一个重要的考虑因素。

此外，文章还回顾了一系列提出新技术和优化语言模型的前沿研究论文，包括压缩文本训练、直接纳什优化和内存高效优化器。

盘点开源模型进展：最新的Mixtral、Llama 3、Phi-3、OpenELM有多好？

对于人工智能和语言处理领域的爱好者和专业人士来说，本文是了解最新趋势和创新、为语言模型未来发展提供见解的宝贵资源。

如果你想在快速变化的人工智能领域保持领先地位，这篇文章绝对值得一读。

- 4月份发布了四大新模型：Mixtral、Llama 3、Phi-3和OpenELM。

- Mixtral8x22B是Mistral AI推出的最新混合专家（MoE）模型。

- Llama 3是Meta AI发布的新模型，具有更大的词汇量和分组查询注意力。

- Phi-3是微软发布的新模型，使用严格过滤的网络数据和合成数据。

- OpenELM是Apple发布的小型LLM模型套件，能够部署在移动设备上。

- PPO 一般比 DPO 更好，但 DPO 更简单、更容易使用。

- 论文《Training LLMs over Neurally Compressed Text》介绍了一种在神经压缩文本上训练 LLM 的方法，以帮助 LLM 在面向任务的对话中保持主题。

- 论文《Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences》提出了一种LLM后训练的方法：Direct 纳什 Optimization（DNO），可以提高模型性能。

- 论文《Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models》探讨了交叉注意力在文本条件扩散模型的推理阶段如何工作。

- 论文《BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models》介绍了一种内存高效的优化器BAdam，可以提高微调LLM的效率。

- 论文《On the Scalability of Diffusion-based Text-to-Image Generation》实证研究了基于扩散的文森图模型的扩展属性。

- 论文《Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks》表明，即使是围绕安全性构建的最新法学硕士也可以通过自适应技术轻松越狱。

- 论文《Emergent Abilities in Reduced-Scale Generative Language Models》发现非常“小的”法学硕士也可以表现出新兴的特性。

- 论文《Long-context LLMs Struggle with Long In-context Learning》介绍了一个新的基准LIConBench，重点关注长上下文学习和极端标签分类。

- 论文《Mixture-of-Depths: Dynamically Allocating Compute in Transformer-Based Language Models》提出了一种混合深度方法来优化基于 Transformer 的语言模型的性能和效率。

- 论文《Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models》介绍了 Diffusion-RWKV，这是 NLP RWKV 架构的一种变体。

- 论文《The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis》发现可以在早期阶段预测最终的LLM，有助于改善预训练设置。

- 论文《Bigger is not Always Better: Scaling Properties of Latent Diffusion Models》探讨了潜在扩散模型的大小对采样效率的影响。

- 论文《Do Language Models Plan Ahead for Future Tokens?》通过实验发现，Transformer在推理阶段可以通过“预缓存”和“面包屑”机制来预测未来的信息。

盘点开源模型进展：最新的Mixtral、Llama 3、Phi-3、OpenELM有多好？

站长声明

标签：

上一篇：人民币占全球外汇储备比重持续创新高，美元储备比重连续三个季度下降

下一篇：“市值36亿美元”基因编辑公司深陷专利纠纷，联合创始人是诺贝尔奖得主

一家号称“真相帝”的公司，一个DEMO就能估值2亿

今天刀哥要说的公司，相当具有颠覆性。他们做的商业调查大数据产品经常刷爆朋友圈。很多企业在注册商标的时候，都想把能想到的名字都注册一遍。比如，网友发现老干妈一次性注册了老干娘、神老马、老阿姨等商标……抢注各种商标也是如此。毁三观，比如有一家历史上名字最长

06-17
iPad mini将为谁“复活”？

“即使只是换处理器，也不必要求全面屏。 ”作为多年iPad mini老用户的小志如实说道。 ▲ iPad mini 第五代（年份型号）其实他用的是“最新”的 iPad mini 第五代（以下简称“iPad mini 5”），但为什么叫“老款”呢？仅仅因为iPad mini 5是2017年发布的，现在已经快三年了。

06-21
MemVerge获1900万美元战略投资，推动数据中心“大内存计算”趋势

雷锋网5月12日报道，MemVerge今日宣布完成英特尔等战略投资者1万美元融资、思科、NetApp 和 SK 海力士。投资者方面，该公司此前的投资者高榕 Capital、Glory Ventures、Jerusalem Venture Partners、LDV、Lightspeed Venture Partners和Northern Light Venture Partners也参

06-18
全场景互动CEM服务商“小易数智”完成数千万元天使轮融资

据投资界（ID：pedaily）7月13日消息，近日，全场景互动CEM服务提供商“小医数智”宣布完成数千万元天使轮融资，由深创投领投，国宏嘉信资本跟投，青通资本跟投。小蚁数智创始人&CEO宋博表示，本轮融资将主要用于SaaS产研团队的扩充、武汉产研基地的建设以及北京本地市场和

06-18
《知行合一》已完成近千万元天使轮融资

《知行合一》近日完成近千万元天使轮融资。本轮融资由天使投资人黄建个人投资完成。本次融资所筹资金将主要用于人才储备和补充流动资金。智行合一成立于2019年10月，是一家总部位于广东珠海、专注于为失能、半失能老年人提供医养结合的服务型企业。服务范围涵盖老年慢性

06-17
汽车智能科技公司“美嘉科技”完成超亿美元融资

36氪独家获悉，汽车智能科技公司“美嘉科技”近期完成超亿美元融资，领投由超越资本。湾区共同家园发展基金及南山资本、红点中国、山航资本等老股东也参与投资。泰合之都充当专属财务顾问。美嘉科技CEO庄莉透露，本轮融资发生得很快。该项目于去年12月底启动，今年3月竣工

06-18
外资资管巨头蜂拥而至

10月以来，上海迎来了包括负责人在内的多家知名外资金融机构的到访。 10月19日，上海市地方金融监管局局长周小全会见摩根士丹利投资管理亚洲区首席运营官、摩根士丹利基金管理（中国）有限公司首席运营官托德科尔特曼一行。 10月16日，周小全会见法国农业信贷银行（中国）有限

06-17
外媒：TikTok讨论不出售美国业务的解决方案

当地时间9月10日，据《华尔街日报》报道，TikTok母公司字节跳动正在与美国政府讨论可能的解决方案，以避免TikTok广受欢迎的应用程序短视频正在出售其全部美国业务。自从中国政府采取措施加大TikTok向微软等美国科技公司巨头出售业务的难度以来，围绕TikTok不出售的讨论就变得

06-18
集成电路芯片开发商“中科瀚天下”获3000万元C轮融资

据投资界11月19日消息，集成电路芯片开发商“中科瀚天下”于今年8月完成万元C轮融资，同心企业、浑璞投资、南京科芯为新股东。据了解，中科瀚天下成立于2007年，是一家集成电路芯片开发商。主要从事射频/模拟集成电路和SoC系统集成电路的开发，以及应用解决方案的研究、开

06-17
“易小象”完成Pre-A轮融资，南开大学创新基金注资

据6月10日消息，在线少儿象棋教育公司“易小象”近日完成Pre-A轮融资，获南开大学创新基金注资。本轮融资之前，公司还获得了北塔资本的天使轮投资。本轮资金将主要用于产品技术开发、人才引进和教学服务质量提升。 “玩小象”成立于2007年，专注于4-12岁儿童的象棋启蒙教育

06-17
20亿元专精特新（金华）母基金在金华启动

据投资界（ID：pedaily）消息，3月28日下午，浙江省专精特新（金华）基金基金协议签字仪式在金华举行。继浙江省科技创新专项基金（二期）之后，又一省级“四”专项资金落户金华。浙江省专精特新（金华）母基金注册在金华市，总规模20亿元。由浙江省产业基金、金华市产业基

06-17
天下无贼反信息诈骗联盟升维大数据构筑新防御体系

天下无贼反信息诈骗联盟升维大数据构筑新防御体系 2020年1月14日，全国首个反信息诈骗联盟——天下无贼反信息诈骗联盟召开新闻发布会，庆祝其成立深圳周年庆。大会以“大数据天网，新系统防御”为主题，发布了《反信息诈骗大数据报告》（以下简称《报告》），首次对欺诈产业

06-18