这个镇子卖毛衣,一年卖1000亿
06-17
在前面的章节中,我们讨论了RLHF的样本构建优化和训练策略优化。在本章中,我们讨论两种不同的基于过程训练的强化学习训练解决方案。
,并使用弱教师逐步监督强学生:PRM 和 ORM 通过基于过程和结果的反馈解决数学应用题PRM:让我们逐步验证否定或简单的肯定。即我们需要解决推理格式和样本筛选的问题。
为了保证推理格式稳定,本文训练Generator,并使用'\n'来划分每个解题步骤。为了避免这一步微调带来的样本信息泄露,论文采用few-shot构造正确格式的推理样本,然后过滤答案正确的样本,只使用答案错误但正确的样本格式来训练生成器。
更大程度上保证了微调只注入推理格式,不注入额外的数学知识和推理信息。在样本筛选步骤中,论文使用当前最优的PRM模型来选择分数高但有错误答案的Convincing false答案。
构建难度较大,过程监督信号较多,且PRM在当前问题解决过程中必须至少存在一步判断错误。手动注释的示例。
既然我们看到PRM是用来打分和筛选样本来训练PRM的,那么自然而然的就会用到Iterated Training,也就是说会先构造一波样本来训练一个PRM,然后用新训练的PRM来打分对问题的N个答案然后进行过滤。将Top K的Convincing错误答案进行人工标注,然后进行PRM训练。
这个过程一共迭代了10次。最后,获得了 PRMK 问题解决步骤的训练样本,包括从 12K 个问题中抽取的 75K 个答案。
ORM训练样本就简单多了,只需要使用问题的答案即可。但考虑到上述PRM对样本进行了有偏差的筛选,得到的样本大多是错误答案,因此针对相同问题使用Generator重新随机生成ORM样本。
所以ORM和PRM的答案样本是不一样的。在训练和推理训练阶段,ORM是预测最终答案是否正确的正/负分类目标; PRM 的目标是预测每个问题解决步骤的积极/神经/消极。
这里的论文并没有对解题步骤之间做任何关联,只是将每个解题步骤独立训练为一个分类样本,所以它是一个类似ORM的分类任务。论文还提到,由于预训练LM和分类CLM的目标存在巨大差异,低LR训练得到的PRM更加稳定。
无论模型大小,只训练 2 个 Epoch。虽然看起来 PRM 是假设每个解决问题的步骤都是有条件独立的。
强一点,但是确实如果标注不独立,标注成本会高一个数量级,这也是不现实的。在推理阶段,论文给出了两种PRM推理方案。
一种是利用PRM计算每一步推理正确的概率,然后将多个推理步骤的分数相加,得到每个答案的唯一分数,用于比较同一问题的多个答案的优劣。一个是预测第一个错误的步骤,这样PRM和ORM就会先进行比较。
对于正确答案来说,两个预测都是正确的。对于错误的答案,两种预测都有错误的步骤。
不过PRM会进一步给出错误的具体位置。效果方面,论文以 Best-of-N Major Voting 作为基准,比较 PRM 和 ORM 筛选答案的准确性。
如下图所示,随着样本答案数量N的增加,PRM相对于ORM和Major-Voting的相对优势会越来越明显。考虑到上述ORM和PRM训练数据集并不相同,并不是严格的对比实验。
随后论文还进行了相对可比的消融实验,这里不再赘述。除了直观的效果比较之外,PRM相对于ORM还有几个比对优势。
redit Assignment:对于复杂的问题,PRM可以提供错误的具体位置,使得进一步的迭代修改变得更加容易,因此PRM的奖励分数的边际值更高。 更安全:PRM对齐了COT流程。
与仅仅对齐结果(可能包含过程错误)相比,一致性更高。我个人感觉,由于对齐粒度更细,奖励黑客的概率会相对较低。
负对齐税:论文发现PRM似乎并没有出现对齐带来的效果下降,甚至还有效果的提升。《weak-to-strong WEAK-to-STRONG GENERALIZATION: ELECITING STRONG CAPABILITIES WITH WEAK SUPERVISION Generalization》这篇论文的思想其实和之前的弱监督、半监督、噪声学习思想非常相似。
近几年流行。就是在任务中训练标签上的弱模型,然后使用训练好的弱模型进行标注,然后使用模型标记的标签来训练强模型,看看强模型的效果是否可以超越弱模型。
从逻辑上讲,弱监督和半监督实际上都是改进。模型对未见过的样本的泛化能力,OpenAI这里研究的Weak-to-Strong更多的是模型的泛化能力。
论文可以分为两部分,使用常规的微调来测试弱到强的泛化效果。除了探索如何提高弱到强的泛化能力之外,我们还单独讨论一下实验。
首先,论文选择了三种任务类型来测试模型泛化效果。 NLP分类任务:22个,包括NLI、分类、CR和SA。
NLP 分类任务。对于此类任务,大型??模型和小型模型都可能表现良好。
模型越大,效果越好,但不会很明显。 Chees Puzzles:此类任务可能具有更明显的模型大小效应。
,小模型做不到,模型大到一定程度效果会越来越好。 ChatGPT 奖励模型:预测成对的人类首选模型答案。
目前这类任务还没有好的模型,无论大小都一般。第二步,对上述数据集进行如下训练。
弱supervisor:利用上述数据训练小模型得到Teacher模型。从弱到强:使用上面的弱模型。
预测保留数据集上的标签,并使用这些弱监督标签来训练更大更强的模型。强上限:使用上述任务的样本直接训练强模型,获得高于模型能力上限的三种模型效果。
理论上应该是weak-supervisor 下图展示了不同模型大小的强学生(横轴)、弱教师(颜色)、在上述三个任务上的任务准确率以及对应的 PGR。用于衡量从弱到强的泛化效果。 NLP任务:最小的Teacher可以通过训练一个大很多倍的Student来恢复20%以上的能力。随着教师和学生规模的增加,PGR 将会提高。 在Chess Puzzle任务上,当Teacher模型很小时,Student几乎可以学到没有可用信息。随着教师变大,PGR 会显着增加,但随着学生变大,任务准确性和 PGR 会下降。 可能存在逆向缩放ChatGPT奖励任务。随着教师数量的增加,学生的任务准确性会提高,但泛化 PGR 很少会超过 20%。 这里三个任务的泛化差异,其实和上面提到的三个任务的难度以及与模型大小的相关性有关。如果从噪声学习的角度讨论,NLP任务与模型大小的相关性较低,标签噪声较小; Chess Puzzle 与单个模型规模和学生-教师之间的差距相关性都很大,教师标签噪声,并且学生-教师预测的一致性随模型规模的不同而变化;奖励任务非常笼统,与模型大小无关。 整体来看,通过直接微调,可以稳定获得一定的能力泛化(PGR>0),但泛化效果不佳。因此,下面的论文讨论是否可以通过改变训练方案来提高弱到强的泛化效果。 改进方案一:Bootstraping采用渐进式训练方案,即我们可以先用一个小模型来对齐一个稍大的模型,然后用一个稍大的模型来对齐一个更大的模型,然后逐步迭代。这种训练方式可能更适合上面的Chess Puzzle任务。 考虑到此任务中存在逆缩放。当Student大于Teacher时,由弱到强的泛化效果较差。 然后我们可以逐步放大Student模型。大小,保持老师和学生之间的差距不要太大。 从效果来看,与上述逆缩放相比,不难发现PGR的变化。在同一个Teacher模型上,我们可以获得几乎相同的PGR泛化效果,这意味着较小的模型可以帮助较大的模型恢复相同比例(但绝对值更大)的能力。 这里的论文统一使用3次迭代,这意味着将训练两个中间尺寸的模型。选项2:正则化如果我们希望大模型只学习小模型在任务上获得的见解,而不是简单地模仿小模型,我们可以添加正则化项。 采用半监督学习中的最小熵原理,类似于Pseudo Label的损失函数。对于不熟悉的人,这里有一个小样本工具3。 半监督最小熵正则化是在原始交叉熵(左)上,添加学生模型的预测熵值。这里f(x)是训练中的大模型,t是动态阈值,是batch中样本的预测概率中值。 这样,即使大模型不学习 Teacher 模型,通过增加其对预测样本的置信度(Beconfidence! You are right),也可以减少损失函数。 Lconf(f) = (1 ? α) · CE(f(x), fw(x)) + α · CE(f(x), \hat{f}\_t(x)) 上述损失函数也可以改写为噪声损失函数中的Bootstrap Loss。 对于不熟悉的同学,这里讲一下损失函数1.噪声鲁棒损失函数。也就是说,学生学习的标签是教师预测标签和学生模型本身预测标签的混合。 逻辑是一样的。如果您对这个问题的预测有信心,那么请继续自信! Lconf(f) = CE(f(x), (1 ? α) · fw(x) + α · \hat{f}\_t(x)) 将上述正则项添加到 NLP 任务中。 当学生和老师之间的差距较大时,可以显着提高弱到强的泛化效果。即使是最小的Teacher也能恢复大模型近80%的效果,这说明它对于降低学生不假思索地模仿老师的概率是非常有效的。 一个学习策略。为什么泛化上一篇文章讨论了弱到强泛化为什么存在以及在什么场景下存在。 这是一个大问题。论文不可能穷尽所有场景,因此有针对性地讨论了模仿行为以及学生模型本身是否擅长这项任务。 这里简单说一下主要结论。 Imitation这里的论文通过过拟合的程度以及学生和老师的预测一致性来衡量大模型是否盲目地拟合了教师模型。 它还提出了适当的常规术语和早期停止机制,可以减少模仿并提高泛化赛利性。论文提出,当强模型本身通过预训练对任务有很好的任务学习(表示)时,泛化能力会更好。 好的。就我个人而言,我觉得这有点像 DAPT 和 TAPT(领域/任务自适应预训练)。 对于那些不熟悉它的人,请不要停止阅读这篇预训练!继续预训练。从文本表示空间分布的角度来看,当模型以更高维的线性可分表示任务文本的空间分布且边界更清晰、更平滑时,模型更容易泛化到任务。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-18
06-18
06-18
06-18
06-17
最新文章
【玩转GPU】ControlNet初学者生存指南
【实战】获取小程序中用户的城市信息(附源码)
包雪雪简单介绍Vue.js:开学
Go进阶:使用Gin框架简单实现服务端渲染
线程池介绍及实际案例分享
JMeter 注释 18 - JMeter 常用配置组件介绍
基于Sentry的大数据权限解决方案
【云+社区年度征文集】GPE监控介绍及使用