这篇研究论文介绍了一种名为"Nash Mirror Prox"(NashMP)的创新算法,旨在解决传统强化学习从人类反馈(RLHF)中存在的局限性。研究团队发现,传统方法常用的Bradley-Terry模型假设人类偏好具有传递性,而实际上人类偏好常常是非传递的。NashMP算法通过将问题建模为偏好游戏并寻找Nash均衡,实现了显著更快的收敛速度—KL散度到最优策略以(1+2β)^(-N/2)的速率减小,且不依赖于动作空间大小。研究团队不仅提供了理论证明,还开发了实用版本用于大型语言模型的微调,实验结果表明该算法在理论和实践上都优于现有方法。
至顶网 科技行者 2025-05-30 10:03:30