强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

632 0 0

文章摘要

研究团队通过系统分析揭示了强化学习训练中数据质量与模型推理能力提升的内在关联。核心发现表明，训练样本的质量和相关性远比数量重要，这一结论对传统认知中扩大数据规模即可提升模型性能的假设形成直接挑战。实验数据显示，经过筛选的1389个高质量样本组成的LIMR数据集，在性能表现上与原始8523个样本的完整数据集相当甚至更优，证实了优化数据选择策略的有效性。

学习影响测量(LIM)方法通过量化样本与模型学习轨迹的对齐程度，实现了数据价值的系统评估。该方法采用两阶段分析：首先追踪每个训练样本在迭代过程中的奖励变化模式，随后计算其与整体奖励曲线的归一化对齐分数。高对齐分数样本往往展现出与模型全局优化目标互补的学习动态，这类样本在训练过程中能更有效地驱动模型改进。实验对比显示，LIMR数据集相较于随机抽样数据集(RAND)平均准确率提升8.1%，较线性进展筛选方法(LINEAR)也有2%的优势。

训练过程指标分析进一步验证了LIM方法的优越性。使用LIMR数据集时，模型奖励曲线快速趋近理论最大值1.0，且训练稳定性显著优于完整数据集。在MATH500、AIME2024和AMC2023三个基准测试中，LIMR方法训练出的模型均展现出与完整数据集训练相当的推理能力，特别是在AIME24和AMC23数据集上的优异表现，证实了其泛化能力而非特定数据集过拟合。

与监督微调(SFT)的对比实验揭示了强化学习的独特优势。在1000量级训练数据场景下，LIMR方法在AIME测试中的准确率较SFT提升超过100%，AMC23和MATH500准确率也有10%以上的提升。这一发现表明，当结合有效数据选择策略时，强化学习在数据有限的小模型应用中具有显著优势。研究同时观察到，传统Scaling Law在强化学习场景下的适用性受到根本性质疑，数据规模扩展带来的边际效益可能远低于预期。

该研究为高效RL训练提供了可扩展的解决方案，其揭示的「质量优于数量」原则将指导后续研究重点转向数据价值评估体系的构建。实验证据表明，通过LIM方法筛选的高价值样本不仅能降低80%的数据需求，还能提升训练稳定性，这对资源受限的实际应用场景具有重要实践意义。