新加坡国立大学和南洋理工大学联合研究团队开发的GuardReasoner-VL是一种具备推理能力的视觉-语言模型安全守门员,能有效防护AI系统免受有害内容影响。该模型通过先推理再决策的方式,不仅能判断内容是否有害,还能提供详细的推理过程作为解释。研究者构建了包含12.3万样本的训练语料库,并通过监督微调和在线强化学习优化模型性能。实验结果显示,GuardReasoner-VL在安全评估基准上的平均F1分数比现有最佳模型高19.27%,为AI安全领域提供了新的解决方案。
至顶网 科技行者 2025-05-21 13:44:31