这项研究提出了强化蒸馏(REDI)框架,创新性地利用大型语言模型生成的正确和错误推理过程进行训练。传统方法仅使用正确样本,浪费了包含宝贵信息的错误样本。REDI采用两阶段方法:先用正确样本建立基础,再通过非对称加权的目标函数利用错误样本进一步优化。实验表明,仅用131k个公开数据样本训练的Qwen-REDI-1.5B模型在MATH-500等基准上达到83.1%准确率,与使用800k专有数据训练的同类模型相当或更优,为小型模型离线学习复杂推理能力提供了高效途径。
至顶网 科技行者 2025-06-04 13:34:14