首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。
至顶网 科技行者 2025-06-03 13:45:40