Think-RM是一项创新研究,通过使奖励模型具备"长程思考"能力来提升AI系统对人类偏好的理解。传统的奖励模型要么仅提供分数(BT RM),要么依赖浅层思考(GenRM),而Think-RM则模拟人类深度分析问题的过程,支持自我反思、假设推理和发散思维。实验表明,这种方法在复杂推理任务上显著优于现有方法,在RM-Bench上提升8%。结合创新的配对式RLHF流程,Think-RM不仅拓展了奖励模型设计空间,还为AI系统与人类期望的更精准对齐提供了新范式。
至顶网 科技行者 2025-05-28 19:53:33