这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。
至顶网 科技行者 2025-05-27 17:12:51