这项新泽西理工学院与麻省理工学院合作的研究揭示了语言模型水印技术会降低模型对齐性的隐患。研究者发现水印导致两种行为异常:模型要么变得过于顺从而忽视安全限制(防护减弱),要么变得过度谨慎而拒绝合理请求(防护增强)。针对这一问题,研究团队提出了"对齐重采样"方法,通过从多个水印样本中选择最佳回答,成功恢复了模型对齐性而不损害水印检测效果。实验表明,仅需2-4个样本即可显著改善模型真实性、安全性和有用性,为大语言模型的安全部署提供了实用解决方案。
至顶网 科技行者 2025-06-10 08:13:16