这项研究提出了Critique-GRPO,一种创新的在线强化学习框架,将自然语言批评与数字反馈相结合,克服了传统仅用数字反馈的三大局限:性能瓶颈、自我反思效果有限和顽固性失败。实验表明,该方法使大语言模型能够从错误中学习并改进,在八项数学和通用推理任务中,将Qwen2.5-7B和Qwen3-8B模型的平均通过率分别提高了约4.5%和5%,超越了包括那些引入专家示范的方法。研究还揭示,高熵探索和长回答并不总是最有效的学习方式,质量更重要。这一方法为大语言模型的自我提升能力开辟了新路径。
至顶网 科技行者 2025-06-07 17:00:24