这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL,一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务:连贯性验证、错误感知、错误类型检测和推理评估,全面测试模型理解合成视频的能力。研究发现即使是最先进的GPT-4.1模型也难以在所有任务上保持良好表现,表明AI对生成视频的理解仍有巨大提升空间。研究还通过REPROMPT实验证明,将大模型反馈与人类偏好更好地对齐可以显著提升视频生成质量。
至顶网 科技行者 2025-06-03 13:33:15