这篇研究介绍了Meta公司开发的J1系统,这是一种通过强化学习训练大语言模型进行评判的创新方法。J1将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而鼓励模型在做出决策前先进行思考。研究表明,J1在8B和70B参数规模下都超越了同等规模的现有模型,甚至在某些测试中超过了更大的模型如o1-mini和DeepSeek-R1。这种方法的核心创新在于不仅优化最终判断,还优化思考过程本身,使模型学会制定评估标准、生成参考答案并重新评估回答的正确性。
至顶网 Hugging Face 2025-05-16 17:09:21