PP动态

PP电子 app大模型RLHF算法更新换代DeepMind提出自训练离线强化学习框架ReST

发布时间：2023-09-14 08:55人气：

　　大模型（LLMs）爆火的背后，离不开多种不同基础算法技术的支撑，例如基础语言架构Transformer、自回归语言建模、提示学习和指示学习等等。这些技术造就了像GPT-3、PaLM等基座生成模型，在这些基座模型之上，研究人员通过引入人类反馈的强化学习算法（RLHF）开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型，才将LLMs真正带领到公众视野中。RLHF由于自身在线更新的限制带来了较大的训练计算代价，且容易遭到”外部攻击“。

　　为了解决上述问题，来自Google DeepMind的研究团队提出了一种全新的强化自训练算法（Reinforced Self-Training，ReST），ReST相比RLHF，可以以更高的效率使LLMs的输出与人类偏好保持一致。ReST的设计灵感来源于他们将语言模型的对齐问题视为一个不断增长的批量强化学习问题，因此本文作者首先从一个初始LLMs策略出发，并根据该策略生成一个离线数据集，然后使用离线RL算法使用这些样本反过来更新LLMs策略。作者重点在基础NLP任务中的机器翻译任务上对ReST算法的性能进行了评估，实验结果表明，ReST相比RLHF可以更明显的提高模型的翻译质量。

　　如何将LLMs的输出与人类偏好或价值观进行高效的对齐，是目前提升LLMs性能的关键问题，如果没有进行适当的对齐处理，LLMs可能会产生风险高或完全错误的内容，这对于下游应用程序具有毁灭性的影响。目前常用的RLHF方法通常使用人类反馈的标注数据来学习一个奖励模型，然后将其用于强化学习目标来对LLM进行微调对齐。但是RLHF通常依赖于在线RL方法，例如PPO[1]和A2C[2]，这就需要在模型训练过程中多次使用奖励模型来从更新后的策略中采样新样本，这会带来高昂的计算代价。PP电子 app为了解决这一问题，本文提出了一个自训练强化学习算法ReST，ReST将人类标注员从反馈训练循环中丢弃，自行生成并使用离线数据进行反馈训练。作者巧妙地设计了一个内外循环机制，如下图所示。

　　其中外循环称为Grow循环，模型会根据当前的策略来采样生成一个对齐数据集，内循环称为Improve循环，模型会对外循环生成的数据集进行过滤（使用人类偏好评分函数对样本进行排序过滤），并将过滤后的数据继续用于微调优化策略，内外循环相互影响，以降低采样数据带来的训练成本。ReST不再依赖在线的RL损失，因而成为了一种通用的强化学习框架，允许在执行Improve循环时使用不同的离线RL损失，使整体框架更具灵活性。

　　ReST方法从训练一个条件语言模型出发，给定上下文序列生成输出序列，模型的自回归形式可以表示如下：

　　随后ReST使用Grow循环采样得到一个数据集，该数据集的分布可以表示为：

　　通过使用该数据集，ReST可以通过最小化负对数似然（NLL）损失来训练监督策略的优化：

　　ReST算法将普通RL算法中的数据集构建和策略优化过程解耦成两个单独的离线操作，其中在Grow外循环中会创建一个新数据集，它使用初始条件模型生成的样本来扩充初始训练数据集：

　　其中，条件输入是从原始数据集中重新采样的，这一过程可以理解为自训练。此外也可以通过访问来采样得到样本，例如，在一个根据文本生成图像的模型，文本输入的分布可以直接从语言模型中采样。

　　Grow循环步骤对应于RL中的数据生成操作，在得到之后，即根据当前策略得到，其中，作者仍然保留原始数据集，使其与新生成的数据混合得到新离线数据集，这样可以保证策略函数不会发散。随后就可以使用奖励函数来对不同的策略函数计算奖励，如下图下半部分所示。

　　其中奖励值高于指定的阈值分数的数据点会在Improve循环中来对策略函数进行更新（在下一节中会详细介绍），例如上图中的灰色部分，如果在这些区域内进行采样，会得到质量更高的样本，可以用来生成下一批次的数据集。

　　Improve循环主要用来对ReST算法中的策略函数进行更新，更新的形式是使用新的数据集来微调策略。为此，作者首先定义了一个过滤函数，该函数可以得到奖励值只高于特定阈值的样本：

　　接下来使用过滤后的数据对当前的最佳策略进行微调，通常使用上文提到的监督损失或离线RL损失进行训练，可以得到以下奖励加权损失：

　　如上图所示，当Improve循环不断向前迭代时，过滤阈值也在不断增大，这种随着阈值增加而进行的过滤操作会导致数据子集的质量不断提高，但样本数量却不断减小。由于LLPP电子游戏Ms存在在小型数据集快速过拟合的问题，因此作者每次使用较低的学习率对前一代的策略进行微调。此外由于Grow循环中的策略采样计算代价较大，因此在每次Grow步骤之后，都会执行多次Improve步骤，这样就可以将单个数据集生成的成本分摊到多个Improve步骤上，下图描述了完整的ReST算法流程，包括具体的内外循环调度过程。

　　本文的实验主要在机器翻译基准上进行，作者选取了IWSLT 2014、WMT 2020和Web Domain三个数据集，其中前两者为常见的机器翻译数据集，后者为内部测试数据集，这些数据集都包含一组语言文本和对应人类标注员给出的真实参考翻译。作者选取了几种不同的离线强化学习算法作为baseline对比方法，包括OAC、BVM、PO、GOLD和BC。

　　作者首先分析了ReST的两个循环步骤对最终性能的影响，例如增加Improve循环的次数是否会增加奖励模型的分数，如下图所示，灰色柱状为监督学习baseline的分数，通过调整损失函数类型、Improve steps（I）和Grow steps（G）来构成不同的ReST变体，其分数为紫色柱状所示。

　　可以看到，随着Improve steps数量的不断增加，ReST在所有三个数据集上的平均奖励分数都得到了提高。

　　Grow步骤可以不断增加离线训练的样本数量，因此作者对比了执行单次Grow步骤和执行两次Grow步骤后的模型性能，如下图所示，执行两次Grow步骤的ReST变体在IWSLT 2014和Web Domain数据集上都有明显的提升。

　　在下图中作者展示了本文方法与监督训练模型，以及使用不同损失函数的ReST变体的平均奖励分数对比，可以观察到，即使只使用单次Grow步骤，ReST的不同变体（紫色）也显着优于监督学习模型（灰色）得到的奖励分数。

　　此外，我们也可以观察到，BC损失在单次Grow步骤的情况下，明显优于使用其他损失函数的效果。

　　作者选取PPO算法作为对比在线RL算法，PPO广泛用于各式RLHF流程中。在实验中，PPO算法可以通过单次Grow步骤访问与ReST算法相当数量的训练数据，对比结果如下表所示。

　　可以看到，在线PPO算法的平均奖励分数基本与ReST算法持平，但是这只是在单次Grow步骤的情况下，当ReST使用多步Grow和Improve后（并且参与训练的数据量相同），性能会得到显著的提升。

　　本文提出了一种名为ReST的自训练离线强化学习算法，其中包含了一种新型的内外循环机制（分为Grow外循环和Improve内循环）来高效的调度RL过程中的策略生成和更新。同时其具有良好的拓展性，可以灵活的应用在多种不同的RL损失中，本文作者在机器翻译基准上的实验表明，使用常用的BC损失可以使ReST在多种不同的环境中得到更高的奖励分数。ReST的提出也向社区宣布，在对LLMs执行与人类偏好对齐时，可以尝试除PPO等在线RL算法之外的更多RL优化手段。

　　TechBeat是由将门创投建立的AI学习社区（）。社区上线+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

　　我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

　　或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

　　将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

　　将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

　　如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

分享到：

上一篇：PP电子 app阿里云通义千问大模型正式向全社会开放

下一篇：PP电子游戏2023百度十大科技前沿发明发布超70%为大模型重构与创新

PP电子「中国」平台网站

咨询热线：

PP电子 app大模型RLHF算法更新换代DeepMind提出自训练离线强化学习框架ReST

PP电子「中国」平台网站

咨询热线：

PP电子 app大模型RLHF算法更新换代DeepMind提出自训练离线强化学习框架ReST

微信号：WX39936微信二维码