马里兰大学研究团队开发了DyePack,一种检测大型语言模型测试集污染的创新框架。该方法灵感来源于银行染料包,通过在测试数据中植入带随机目标的后门样本,当模型训练时使用了这些数据,会显示出特定行为模式而被标记。DyePack无需访问模型内部,能精确计算误报率,在MMLU-Pro和Big-Bench-Hard上分别实现0.000073%和0.000017%的超低误报率。研究还证明多后门策略优于单后门,并成功将技术扩展到开放式生成任务,为未来基准测试开发提供了强大的完整性保障工具。
至顶网 科技行者 2025-06-05 11:03:37