首页 > 科技未来 > 内容

用最酷的LR训练最强的模型

发布于:2024-06-18 编辑:匿名 来源:网络

在《用最酷的LR训练最强的模型》一文中,作者rumor深入探讨了学习率(LR)策略的优化来训练强大的机器学习模型。

微妙。

本文批判性地研究了常用的余弦衰减 LR 策略,并提出了预热-稳定-衰减 (WSD) 策略作为更友好的替代方案。

此外,还探索了随机权重平均(SWA)和无调度优化器(SFO)等创新方法。

这些对于那些对训练大型语言模型 (LLM) 的最新进展感兴趣的人来说非常重要,它们为有效的 LR 策略提供了指导,从而可能带来更好的模型性能和更低的计算成本。

- 在预训练中,批量大小和学习率是重要的超参数。

- Cosine 衰减的学习率策略对持续训练不太友好,需要与训练步数保持一致。

- 清华的MiniCPM工作提出了WSD策略,即在快速预热后,长时间使用固定的学习率,然后在最后快速衰减到较小的学习率。

- WSD策略对小尺寸模型有非常好的收敛效果,甚至在快速衰减后可以超过cosine的性能。

用最酷的LR训练最强的模型

- Cooldown策略的最优学习率为最优Cosine的一半。

衰减长度在10%到20%之间比较好,效果可以超过Cosine。

- 无情者选择不调整LR的方法包括Stochastic Weight Averaging和Schedule-Free Optimizer,但效果不如Cooldown或Cosine。

- 这些策略仅在小尺寸模型上得到验证。

大模型的稳定收敛以及Scaling Law的有效性需要更多的实验验证。

用最酷的LR训练最强的模型

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 零售行业在线客服系统:实时解决客户问题的关键

    零售行业在线客服系统:实时解决客户问题的关键

    .wp-block-column h3{margin-left:0} 随着零售行业的快速发展,客户服务质量已成为一环品牌竞争的关键因素。 。 在这个竞争激烈的市场环境下,Udesk在线客服系统通过多渠道统一管理、打破沟通障碍、完整数据统计等关键功能,成为零售行业实时解决客户问题不可或缺的关键。 1、

    06-17

  • Groupon计划本周提交IPO申请,估值150亿美元

    Groupon计划本周提交IPO申请,估值150亿美元

    据外媒报道,News 人士透露,Groupon最快本周将提交IPO(首次公开募股)申请,预计将于价值1亿美元。    据称,Groupon首席执行官安德鲁梅森(Andrew Mason)等公司其他人希望立即提交IPO申请,但遭到银行合作伙伴的劝阻,最终决定等待。 这是因为Groupon尚未准备好所有必要

    06-18

  • 上线8个月交易额突破5亿,Albang.com完成1200万天使轮融资

    上线8个月交易额突破5亿,Albang.com完成1200万天使轮融资

    NewSeed(ID:pelink) 据7月6日消息,Albang.com宣布完成1万天使轮融资。 投资者尚未透露。 Albang.com是铝行业的B2B平台。 它于今年11月推出,专注于服务铝行业。 在铝厂-经销商-终端的交易链条中,阿尔邦网更注重业务链上游的高频大额交易,链接铝厂和经销商,旨在打造垂

    06-18

  • 美国大选第三场辩论已经结束,这场辩论背后科技圈发生了哪些重大事件

    美国大选第三场辩论已经结束,这场辩论背后科技圈发生了哪些重大事件

    美国大选第三场电视辩论中,特朗普和希拉里就堕胎、枪支管制、俄罗斯总统普京等问题进行了辩论。 其中,希拉里就黑客事件指责特朗普是普京的傀儡。 我们有十七个情报机构称黑客攻击来自俄罗斯。 历史上从来没有一个外国政府敢于试图干涉我们的总统选举。 雷锋网曾多次报道美国

    06-17

  • 中国制造网年内敲定A股上市,目前已进入沉默期

    中国制造网年内敲定A股上市,目前已进入沉默期

    9月26日凌晨消息,据知情人士人士报道,曾推迟上市的中国制造网一时间,急于在年内上市A股。 公司目前已进入上市静默期。 。   中国制造网副总裁许剑峰去年9月左右首次透露,公司计划于2008年上市。 如果进展顺利,上市将在9月左右完成。   不过,公司的上市计划原定于今

    06-18

  • 腾讯文档推出创新品类智能白板,自主研发的开物引擎支持全端应用

    腾讯文档推出创新品类智能白板,自主研发的开物引擎支持全端应用

    4月18日,“腾讯文档,开启你的想象力”产品发布会在线上举行。 腾讯社交协作产品部总经理和腾讯文档负责人鄢贤卿在会上正式发布了智能白板创新品类、双核编辑“开物引擎”、云加端解决方案等产品矩阵。 他表示,在自研文档品类、自研双核引擎的基础下,腾讯文档还全面搭载AI

    06-18

  • 印尼在线教育平台Ruangguru完成1.5亿美元C轮融资,由纪源资本、GA领投

    印尼在线教育平台Ruangguru完成1.5亿美元C轮融资,由纪源资本、GA领投

    据投资界12月26日消息,印尼在线教育平台Ruangguru完成1.5亿美元C轮融资。 本轮融资由纪源资本(GGV Capital)和泛大西洋投资集团(GA)领投,多家现有投资者和新投资者跟投。 本次融资是东南亚教育科技公司最大的融资之一。 巩固了Ruangguru在教育科技市场的领先地位,有助

    06-18

  • 百度发布Q4财报:营收289亿元,净利润92亿元

    百度发布Q4财报:营收289亿元,净利润92亿元

    北京时间2月28日(美国东部时间2月27日),百度(纳斯达克股票代码:BIDU)公布了截至12月31日的业绩。 第四季度和全年未经审计的财务报告。 第四季度,百度实现营收1亿元,归属于百度的净利润达到92亿元(非美国通用会计准则),同比增长95%。 年收入1亿元。 “过去的一年,

    06-18

  • 樱树生命完成超亿元A轮融资,由威高松源基金领投

    樱树生命完成超亿元A轮融资,由威高松源基金领投

    投资界(ID:pedaily)1月22日消息,杭州樱树生命科技有限公司(简称“樱树生活”)宣布完成超亿元A轮战略融资。 本轮由威高松源基金领投,龙磐投资跟投,凯诚资本担任财务顾问。 本轮融资后,公司将进一步扩大硬镜和一次性内窥镜产品矩阵,加速全球销售渠道布局。 英树生命成

    06-17

  • 2021年“科技创新中国”企业云课堂启动仪式在北京成功举办

    2021年“科技创新中国”企业云课堂启动仪式在北京成功举办

    创造头条新闻5月13日,由中国科协、中华全国工商业联合会主办由中国科协学术部、全国工商联宣传部、教育经济部主办的“科技创新中国”启动仪式由科技部、中国科协企业创新服务中心、中国石油天然气集团公司主办的“企业云课堂”在京成功举办。 中国石油天然气集团公司党组副主

    06-17

  • ARM华衣降

    ARM华衣降

    登陆纳斯达克一个月后,号称全球年度最大IPO的芯片设计公司巨头ARM跌破发行价。 截至美东时间10月13日,ARM收盘价为50.78美元/股,跌破发行价,较上市首日收盘价下跌21.10%。 对应的总市值为0.3亿美元,超过1亿美元。 市场价值被消灭了。 来源:百度股通 ARM上市时,资本市场

    06-17

  • 便利蜂回应“便利蜂赴美IPO”:不属实

    便利蜂回应“便利蜂赴美IPO”:不属实

    针对媒体有关“便利蜂赴美IPO”的报道,便利蜂回应称,“不属实”。 此前有消息称,中国便利店便利蜂已秘密提交赴美IPO申请。

    06-18