这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"(SUM)数据集,系统研究了这一现象,并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为,且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理,还能泛化到事实性问答等领域,教会模型在面对无法回答的问题时诚实地承认自己的知识边界。
至顶网 科技行者 2025-05-27 11:05:56