从得分手到思想家:RM
栏目:行业动态 发布时间:2025-06-02 12:10
“知道真相,知道原因。”该股票的主张强调,真正的理解不仅在结果中,而且在推论过程中。如今,在训练大型语言模型的阶段,奖励模型承担了加入人类行为和模型价值观的重要责任。但是,尽管现有模型通常仅获得一个分数,但很难解释这一点的基础。缺乏推理的奖励就像“知道正在发生的事情,但知道正在发生的事情”,而且很难产生信任并指导更好的学习。伊利诺伊大学香槟分校的一项研究团队提出了RM-R1框架,重新定义奖励建模为推理任务,并提出了推理奖励模型(后方)。 RM-R1专注于如何通过集成推理能力来改善奖励模型,并允许以更精确的精度评估和获得模型的结果适合人类偏好。 RM-R1通过产生结构化评估标准和推理过程来提高奖励模型的可解释性和性能。文档标题:RM-R1:文档链接中的奖励作为奖励模型https://huggingface.co/collections/gaotang/gaotang/rm-r1-681128CDAB932701CAD844C8本文研究中心调查的三个结果:尺度的增长:随着增长和计算机的效果的增长和计算机的绩效,均和计算机的绩效效果已经增加了,RM-R的效果已经增加了RM-R1估算的效果。几乎有所改善。只需应用旧的RL即可,该策略将行不通。如果您希望该模型成为“原因”,则必须在推理过程中精心解决问题的类型,并在推理过程中进行方向性蒸馏训练,以提供改进的实际概括。推论比直接输出响应更普遍:与传统的直接监督相比,RM-R1推理功能更强大,EA较为攀登的新任务,即使培训数据很少,也具有优势。奖励模式是由推理anceance驱动的:从评估到解释,RM-R1介绍了“ Resrms”(RETRM)的概念,该概念将奖励建模视为推理过程。该模型创建结构化的评估标准或推理过程,并在评估候选人的响应之前根据这些标准对其进行评估。这种方法提高了模型的解释性,并可以更好地管理复杂的推理任务。图1:无法直接在现有的指令调整模型,情感伤痕和拒绝响应的缺失细节中直接识别SuperFI模式。右下角的推理奖励模型可以出现在表面特性之外,并根据响应引起的深层影响进行评估。中心机制:链评估标准(COR)如何得出模型,以及我们“思考” RM-R1共同的一件事创新是链砖(COR)的引入机理。这种机制在一系列结构化的推理步骤中打破了奖励建模任务,该步骤使模型可以在做出最终优先级决策之前进行深入的“思想”和评估,例如人类专家。 COR机制的本质在于其作为“适应”和“内部专家”的作用,不仅提高了评估的精度,而且还揭示了“ Metalirano”模型在复杂任务中的潜力。 COR机制使您可以根据任务类型动态调整评估策略。指南系统指标每个首选数据示例首先将奖励模型(Rθ)分类为“推论”或“对话”(CHAT)。对于推理任务(数学,编程,逻辑推理,多个步骤推理等),指示该模型首先解决用户的问题,自行生成解决方案并将其封装在解决方案标签上...此Interna InternaLLY生成的解决方案是“标准响应”或“内部专家”的参考。然后,该模型将其用作参考点,以评估两个候选响应推断的精度,完整性和质量。这种机制使该模型可以对自我综合性和“自我纠正”进行内部控制,因为它在确定外部响应之前代表了独立牙齿的“真相”。这种“内部专家”机制使模型比表面模式的巧合更准确。实现性验证可以大大提高确定复杂推理任务的精度。对于对话任务(例如开放对话,安全问题,样式重写,通用援助请求),该模型会生成个性化的评估标准,并被告知将权重分配给每个标准,提供了解释这些标准以及为什么选择权重的理由。这些准则和原因被封装hin rubric ...和理由...标签。然后,该模型根据这些定义良好的标准比较并仔细评估了两个候选者的响应,并放置评估标签的结果...,最后执行最终判断,例如答案[[a]]或答案[[b]]。这种方法反映了人类偏好判断的复杂性和多维性。该模型不仅允许二进制判断,而且还可以比较多种因素,例如人类。 COR机制可以通过根据预定义的逻辑序列执行模型,执行特定的任务评估,提供透明的推理痕迹并基于实际内容评估而不是表面特征,从而深层推理和提高可解释性。这种“适应性”表明,RM-R1不仅学会了推断,而且还学习了何时以及如何应用不同的推理策略。该特征是最先进的图表目前的关键点是,它可以对不同类型的任务提供最合适,最细致的评估。图2:COR机制将入口样本划分为两个分类之一:对话类别或推理类型。此任务识别机制使该模型可以根据任务类型以灵活的方式调整其推理策略,从而产生更合适和有效的奖励信号。培训过程:从推理蒸馏到RM-R1增强培训学习意味着两个重要阶段:推理蒸馏:提取高质量推断链的知识并训练模型以生成结构化评估标准。强化学习:使用可验证的奖励信号进一步优化模型推理功能。此培训过程允许RM-R1与奖励银行,RM和RMB银行等多个参考点的奖励点良好运行,超过了最大的开源模型(例如作为Inf-Anorm-llama3.1-70B)和封闭的代码模型(例如GPT-4O)。图3:RM-R1的训练过程分为两个步骤。步骤1:推理链蒸馏,使用来自高质量推理链的数据的模型的蒸馏可为您提供初始推理能力。步骤2:增强学习(RL):使用基于蒸馏的强化学习提高模型推理能力。实验验证:为了完全验证RM-R1在奖励建模任务中的有效性,研究团队通过多个授权参考点进行了系统的实验,包括奖励银行,RM和RMB银行。实验配置使用已注册的QWEN-2.5 7b/14b/32b,DeepSeek-Distill-Qwen作为基本型号。我们比较了几种培训策略,包括原始模型,受监督的精细调整(SFT)以及结合强化学习的策略,这提出了RM-R1的地下质量蒸馏。主要的评估维度是模型在不同类别和任务困难中的精度和概括能力。核心结果:重大的性能改进:RM-R1模型在所有评估参考点上都接近前卫(SOTA)或CASSOCK性能。例如,RM-R1-DeepSeek-DeStill-QWEN-14B模型超过了Inf-Rema-Lalama3.1-70B,Nemotron-4-340B重组和GPT-4O的平均性能,但该模型的尺寸比这些参考模型小得多。潜在客户RM-R1-QWEN-INSTRUCT-32B和RM-R1-DEPEP SEEK-DISTILL-QWEN-32B的扩展更加延伸,在某些参考点,性能提高了8.7%。这表明在奖励建模任务中,模型的“推理能力”比简单的“模型大小”或“参数号”更为重要。虽然传统的奖励模型在表面模式或从大数据中学到的统计关联上降临,但RM-R1提供了模型的COR机制。通过执行的深层逻辑推理形成,这使您可以更好地理解和判断复杂的场景。出色的推理能力:RM-R1-Deepseek-Distill-Qwen-32b的数学和代码任务分别为91.8%和74.1%。这直接表明,RM-R1通过其自身的推理训练范式显着提高了模型的深层推理能力。模型大小和推理计算的积极影响:实验表明,最大的RM-RM-RM-RM(7b,14b,32b)模型不仅显示出良好的性能,而且还显示出推理训练性能的更大改善,这显示出几乎线性的趋势。同时,在推理(允许更长的推理链)可以显着提高性能时增加计算机预算,这进一步验证了深度推理对奖励模型性能的重要性。健壮的能力和概括(消融研究):对RM-R1消融研究成功的关键因素的深入分析。结果表明,增强学习培训不足以缩小完整的RM-R1模型中的性能差距。 COR快速工程(包括专栏和咨询的分类)在很大程度上优化了奖励模型的推理过程,尤其是在对话,安全和推理任务中。推论蒸馏已被证明是性能改进的重要因素,并为模型的基本推理能力提供了稳定的供应。数据效率:基于指令的模型,以表现出令人惊讶的数据效率。 RM-R1仅使用8.7K蒸馏示例来实现与800K示例中DeepSeek模型相当的竞争力。这意味着创新的架构和培训方法(例如推理和COR蒸馏)可以通过相对较小的模型实现出色的性能。这很棒具有有限的计算机资源和实际实施的设备的经济和有效的优势。总之,这些实验结果表明,在未来奖励模型的研究中,RM-R1成功的重要方向。该模型不仅规模,而且还集中于改善模型固有的认知和推理能力,从而允许“理解”和“思考”人类的偏好而不是“理解”。结论:RM-R1在奖励建模中开设了新的章节。提案RM-R1不仅在奖励模型中提供了新的培训方法,而且还创造了一种基础。可解释的奖励推论范式对大型语言模型和人类偏好调整的领域产生了重大影响。通过大规模实验和详细的比较分析,该研究检查了几个中心发现。首先,推理能力是奖励模型的重要组成部分。 RM-R1重建模型g的推理任务奖励,显着提高了模型的精度并提供了前所未有的解释性。其次,两个阶段训练范式表现出极好的效率。被证明是其成功的基础,推理蒸馏和增强学习的协同作用,尤其是在高质量推理链的产生中。最后,链评估标准(COR)的机制提供了深厚的解释性和出色的性能。通过对任务的推理和定制的结构化评估,RM-R1超过了现有的前卫性能模型,并为试验提供了透明的基础。通过大规模实验和详细分析,本文研究了三个主要调查的结果。 1。秤使您成就。随着模型的增长并提高了计算机功率,RM-R1推断链的训练方法会改善,性能几乎线性改善。 2。应用古代RL策略S根本不起作用。如果您希望自己的模型“知道推论”,则必须准确划分问题的类型并在定向蒸馏中进行推理过程中的培训,以提供改进的实际概括。 3。它比直接输出的响应更常见。与传统的直接监督相比,RM-R1推理功能更强大,更容易攀登新任务,而培训数据和收益较少。扩展有关存储库的报告,以开发问题和交换想法。如果您需要详细了解实现细节和RM-R1的实验结果,请访问文档和代码存储库,请参见GitHub〜。奖励建模在指南领域具有重要的进步,并为研究大规模语言模型的一致性和解释性提供了新的想法。
服务热线
400-123-4567