解密提示系列34.训练RLHF的另一种方式：循序渐进&比大师更好

发布于：2024-10-24 编辑：匿名来源：网络

在前面的章节中，我们讨论了RLHF的样本构建优化和训练策略优化。在本章中，我们讨论两种不同的基于过程训练的强化学习训练解决方案。

，并使用弱教师逐步监督强学生：PRM 和 ORM 通过基于过程和结果的反馈解决数学应用题PRM：让我们逐步验证否定或简单的肯定。即我们需要解决推理格式和样本筛选的问题。

为了保证推理格式稳定，本文训练Generator，并使用'\n'来划分每个解题步骤。为了避免这一步微调带来的样本信息泄露，论文采用few-shot构造正确格式的推理样本，然后过滤答案正确的样本，只使用答案错误但正确的样本格式来训练生成器。

更大程度上保证了微调只注入推理格式，不注入额外的数学知识和推理信息。在样本筛选步骤中，论文使用当前最优的PRM模型来选择分数高但有错误答案的Convincing false答案。

构建难度较大，过程监督信号较多，且PRM在当前问题解决过程中必须至少存在一步判断错误。手动注释的示例。

既然我们看到PRM是用来打分和筛选样本来训练PRM的，那么自然而然的就会用到Iterated Training，也就是说会先构造一波样本来训练一个PRM，然后用新训练的PRM来打分对问题的N个答案然后进行过滤。将Top K的Convincing错误答案进行人工标注，然后进行PRM训练。

这个过程一共迭代了10次。最后，获得了 PRMK 问题解决步骤的训练样本，包括从 12K 个问题中抽取的 75K 个答案。

ORM训练样本就简单多了，只需要使用问题的答案即可。但考虑到上述PRM对样本进行了有偏差的筛选，得到的样本大多是错误答案，因此针对相同问题使用Generator重新随机生成ORM样本。

所以ORM和PRM的答案样本是不一样的。在训练和推理训练阶段，ORM是预测最终答案是否正确的正/负分类目标； PRM 的目标是预测每个问题解决步骤的积极/神经/消极。

这里的论文并没有对解题步骤之间做任何关联，只是将每个解题步骤独立训练为一个分类样本，所以它是一个类似ORM的分类任务。论文还提到，由于预训练LM和分类CLM的目标存在巨大差异，低LR训练得到的PRM更加稳定。

无论模型大小，只训练 2 个 Epoch。虽然看起来 PRM 是假设每个解决问题的步骤都是有条件独立的。

强一点，但是确实如果标注不独立，标注成本会高一个数量级，这也是不现实的。在推理阶段，论文给出了两种PRM推理方案。

一种是利用PRM计算每一步推理正确的概率，然后将多个推理步骤的分数相加，得到每个答案的唯一分数，用于比较同一问题的多个答案的优劣。一个是预测第一个错误的步骤，这样PRM和ORM就会先进行比较。

对于正确答案来说，两个预测都是正确的。对于错误的答案，两种预测都有错误的步骤。

不过PRM会进一步给出错误的具体位置。效果方面，论文以 Best-of-N Major Voting 作为基准，比较 PRM 和 ORM 筛选答案的准确性。

如下图所示，随着样本答案数量N的增加，PRM相对于ORM和Major-Voting的相对优势会越来越明显。考虑到上述ORM和PRM训练数据集并不相同，并不是严格的对比实验。

随后论文还进行了相对可比的消融实验，这里不再赘述。除了直观的效果比较之外，PRM相对于ORM还有几个比对优势。

redit Assignment：对于复杂的问题，PRM可以提供错误的具体位置，使得进一步的迭代修改变得更加容易，因此PRM的奖励分数的边际值更高。更安全：PRM对齐了COT流程。

与仅仅对齐结果（可能包含过程错误）相比，一致性更高。我个人感觉，由于对齐粒度更细，奖励黑客的概率会相对较低。

负对齐税：论文发现PRM似乎并没有出现对齐带来的效果下降，甚至还有效果的提升。《weak-to-strong WEAK-to-STRONG GENERALIZATION: ELECITING STRONG CAPABILITIES WITH WEAK SUPERVISION Generalization》这篇论文的思想其实和之前的弱监督、半监督、噪声学习思想非常相似。

近几年流行。就是在任务中训练标签上的弱模型，然后使用训练好的弱模型进行标注，然后使用模型标记的标签来训练强模型，看看强模型的效果是否可以超越弱模型。

从逻辑上讲，弱监督和半监督实际上都是改进。模型对未见过的样本的泛化能力，OpenAI这里研究的Weak-to-Strong更多的是模型的泛化能力。

论文可以分为两部分，使用常规的微调来测试弱到强的泛化效果。除了探索如何提高弱到强的泛化能力之外，我们还单独讨论一下实验。

首先，论文选择了三种任务类型来测试模型泛化效果。 NLP分类任务：22个，包括NLI、分类、CR和SA。

NLP 分类任务。对于此类任务，大型??模型和小型模型都可能表现良好。

模型越大，效果越好，但不会很明显。 Chees Puzzles：此类任务可能具有更明显的模型大小效应。

，小模型做不到，模型大到一定程度效果会越来越好。 ChatGPT 奖励模型：预测成对的人类首选模型答案。

目前这类任务还没有好的模型，无论大小都一般。第二步，对上述数据集进行如下训练。

弱supervisor：利用上述数据训练小模型得到Teacher模型。从弱到强：使用上面的弱模型。

预测保留数据集上的标签，并使用这些弱监督标签来训练更大更强的模型。强上限：使用上述任务的样本直接训练强模型，获得高于模型能力上限的三种模型效果。

理论上应该是weak-supervisor

下图展示了不同模型大小的强学生（横轴）、弱教师（颜色）、在上述三个任务上的任务准确率以及对应的 PGR。用于衡量从弱到强的泛化效果。

NLP任务：最小的Teacher可以通过训练一个大很多倍的Student来恢复20%以上的能力。随着教师和学生规模的增加，PGR 将会提高。

在Chess Puzzle任务上，当Teacher模型很小时，Student几乎可以学到没有可用信息。随着教师变大，PGR 会显着增加，但随着学生变大，任务准确性和 PGR 会下降。

可能存在逆向缩放ChatGPT奖励任务。随着教师数量的增加，学生的任务准确性会提高，但泛化 PGR 很少会超过 20%。

这里三个任务的泛化差异，其实和上面提到的三个任务的难度以及与模型大小的相关性有关。如果从噪声学习的角度讨论，NLP任务与模型大小的相关性较低，标签噪声较小； Chess Puzzle 与单个模型规模和学生-教师之间的差距相关性都很大，教师标签噪声，并且学生-教师预测的一致性随模型规模的不同而变化；奖励任务非常笼统，与模型大小无关。

整体来看，通过直接微调，可以稳定获得一定的能力泛化（PGR>0），但泛化效果不佳。因此，下面的论文讨论是否可以通过改变训练方案来提高弱到强的泛化效果。

改进方案一：Bootstraping采用渐进式训练方案，即我们可以先用一个小模型来对齐一个稍大的模型，然后用一个稍大的模型来对齐一个更大的模型，然后逐步迭代。这种训练方式可能更适合上面的Chess Puzzle任务。

考虑到此任务中存在逆缩放。当Student大于Teacher时，由弱到强的泛化效果较差。

然后我们可以逐步放大Student模型。大小，保持老师和学生之间的差距不要太大。

从效果来看，与上述逆缩放相比，不难发现PGR的变化。在同一个Teacher模型上，我们可以获得几乎相同的PGR泛化效果，这意味着较小的模型可以帮助较大的模型恢复相同比例（但绝对值更大）的能力。

这里的论文统一使用3次迭代，这意味着将训练两个中间尺寸的模型。选项2：正则化如果我们希望大模型只学习小模型在任务上获得的见解，而不是简单地模仿小模型，我们可以添加正则化项。

采用半监督学习中的最小熵原理，类似于Pseudo Label的损失函数。对于不熟悉的人，这里有一个小样本工具3。

半监督最小熵正则化是在原始交叉熵（左）上，添加学生模型的预测熵值。这里f(x)是训练中的大模型，t是动态阈值，是batch中样本的预测概率中值。

这样，即使大模型不学习 Teacher 模型，通过增加其对预测样本的置信度（Beconfidence! You are right），也可以减少损失函数。 Lconf(f) = (1 ? α) · CE(f(x), fw(x)) + α · CE(f(x), \hat{f}\_t(x)) 上述损失函数也可以改写为噪声损失函数中的Bootstrap Loss。

对于不熟悉的同学，这里讲一下损失函数1.噪声鲁棒损失函数。也就是说，学生学习的标签是教师预测标签和学生模型本身预测标签的混合。

逻辑是一样的。如果您对这个问题的预测有信心，那么请继续自信！ Lconf(f) = CE(f(x), (1 ? α) · fw(x) + α · \hat{f}\_t(x)) 将上述正则项添加到 NLP 任务中。

当学生和老师之间的差距较大时，可以显着提高弱到强的泛化效果。即使是最小的Teacher也能恢复大模型近80%的效果，这说明它对于降低学生不假思索地模仿老师的概率是非常有效的。

一个学习策略。为什么泛化上一篇文章讨论了弱到强泛化为什么存在以及在什么场景下存在。

这是一个大问题。论文不可能穷尽所有场景，因此有针对性地讨论了模仿行为以及学生模型本身是否擅长这项任务。

这里简单说一下主要结论。 Imitation这里的论文通过过拟合的程度以及学生和老师的预测一致性来衡量大模型是否盲目地拟合了教师模型。

它还提出了适当的常规术语和早期停止机制，可以减少模仿并提高泛化赛利性。论文提出，当强模型本身通过预训练对任务有很好的任务学习（表示）时，泛化能力会更好。

好的。就我个人而言，我觉得这有点像 DAPT 和 TAPT（领域/任务自适应预训练）。

对于那些不熟悉它的人，请不要停止阅读这篇预训练！继续预训练。从文本表示空间分布的角度来看，当模型以更高维的线性可分表示任务文本的空间分布且边界更清晰、更平滑时，模型更容易泛化到任务。

站长声明

标签：

上一篇：大数据必学Java基础知识（58）：Map接口讲解

下一篇：大数据开发语言scala：起源于Java，隐式转换秒杀Java

这个镇子卖毛衣，一年卖1000亿

濮院。它是如何成为“中国羊毛衫名镇”的？当天气变冷时，濮院往往会变得更热。这个占地60平方公里、仅占浙江省0.%的江南小镇，却占据了全国70%的羊毛衫市场。这里每年生产的羊毛衫多达7亿件，足以绕地球十多次。毫不夸张地说，世界毛衣向中国看，中国毛衣向濮院看。前

06-17
50亿，又一家银行理财子公司开业

又一家银行理财子公司开业。投资界-解码LP获悉，6月16日晚间，民生银行发布公告称，收到《中国银保监会关于民生理财有限责任公司开业的批复》后，银保监会批准民生金融股份有限公司（以下简称民生金融股份有限公司）开业。为：民生金融），该行的全资子公司。目前，已有26

06-17
“仙图智能”获1.2亿元B1轮融资，天齐资本领投

据5月17日消息，仙图智能宣布完成1.2亿元B1轮融资。本轮融资由天齐资本领投，木棉资本担任独家投资方。本轮融资将主要用于研发投入和市场拓展。 Autowise.ai成立于2018年8月，以“无人驾驶改善城市生活”为宗旨，坚持推动无人驾驶技术在城市环卫领域的应用。创始人和CEO黄

06-18
新能源商用车新势力“德力汽车”完成7亿元B轮融资

据投资界（ID：pedaily）8月11日消息，德力新能源汽车股份有限公司完成7亿元B轮融资。德力汽车股份有限公司（以下简称“得力汽车”）近日宣布完成7亿元B轮融资。本轮融资由桉树资本、国轩高科联合领投，汇通达网络、点石资本、宏景智家等跟投。星无限资本担任财务顾问。

06-18
药捷安康完成约1亿美元D轮融资，CPE元丰、国数基金共同领投，

据投资界（ID：pedaily）7月23日消息，近日，药捷安康（南京）科技有限公司（简称“药捷安康”）宣布完成约1亿美元的投资D 系列融资。本轮融资由CPE元丰、国潮基金联合领投，六十度资本、招商资本、金浦健康基金、基石资本、江苏瑞华资本跟投。以下投资者包括现有股东。本

06-17
协鑫集成：与彩虹新能源签署战略合作协议

协鑫集成宣布，公司近日与彩虹集团新能源有限公司签署《战略合作协议》，双方建立战略合作伙伴关系。该协议约定于今年5月起，公司向彩虹新能源采购光伏玻璃，预计合作金额20.21亿元。

06-18
20亿，南京又一母基金诞生

这是线上云签约。投资界-解码LP获悉，3月28日，南京建业建新立业产业投资基金签约仪式通过视频连线举行。会上，正式宣布设立南京建业建信立业产业投资基金，总规模20亿元。，首期10亿元。该基金由建邺区人民政府、建信信托有限责任公司、中国建设银行江苏省分行共同发起设

06-18
金融科技集团孔夫子获保险资本安联近5亿元C1轮融资

据3月9日消息，金融科技集团孔夫子（汇利金控）宣布获近5亿元人民币（即1万美元）融资）在C1轮融资中融资，由安联投资据透露，其C1轮融资仍在进行中，并将在几个月内正式完成。本次融资及战略联盟的完成，将进一步加速WeLab在泛亚洲金融科技领域的发展，更好地把握亚洲近3

06-17
聚水潭战略投资跨境电商服务商SellerMotor数模跨境

据6月21日消息，上海聚水潭网络科技有限公司（以下简称“聚水潭”）与湖南数模网络科技聚水潭股份有限公司（以下简称“聚水潭”）“数墨跨境”）联合宣布，聚水潭已完成对数墨跨境的战略投资。双方将共同研究跨境电商大数据分析和商业智能技术，通过AI赋能全球电商企业。。

06-17
领先的明星直播IP综合运营商银河星获数千万A轮融资

据投资界3月18日消息，领先的明星直播IP综合运营商银河星近日宣布完成数千万A轮融资，本轮投资方为先锋齐云，清科资本为本轮独家投资方。本轮融资将主要用于招募专业人才，深入布局新业务发展和新业态，更好地为品牌、艺人、KOL等提供服务和支持。作为明星MCN机构负责人，银

06-17
投资双碳，凯联资本累计投资超过70亿，

凯联资本的双碳版图将催生又一家上市公司。今年11月初，洪九水果正式向港交所提交招股说明书。中国最大的自有品牌生鲜水果分销商开始冲刺IPO。凯联资本是其背后的投资者之一。作为一名水果经销商，碳中和似乎与碳达峰无关。凯联资本管理公司的合伙人沈文春解释了其中的联

06-18
上半年纽交所两家中国企业IPO融资22亿美元

今年前六个月，纽交所全资控股的纽交所迎来了11次IPO，融资总额达22亿美元。美元在欧美所有交易所中排名第一。　　纽约证券交易所上半年IPO融资总额达22亿美元，超过德意志交易所、伦敦证券交易所和纳斯达克等众多交易所。这一数字超过纳斯达克OMX同期IPO融资总额的8倍。

06-17