百川智能等机构的研究团队提出了一种创新方法,利用答案格式和长度作为替代信号,无需标准答案就能训练大型语言模型解决数学问题。研究发现,在训练初期15步内,仅基于格式正确性的奖励函数就能产生与标准GRPO算法相当的性能提升。随后引入长度奖励后,这种方法甚至在某些情况下超过了依赖标准答案的传统方法,使用7B基础模型在AIME2024上达到40.0%的准确率。研究揭示了一个关键洞察:基础模型就像已掌握数学和逻辑推理技能但考试表现不佳的优秀学生,只需培养良好的答题习惯即可充分释放其潜能。
至顶网 科技行者 2025-05-30 10:04:26