这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
至顶网 科技行者 2025-05-22 13:57:25