这项研究由Moonshot AI与北京大学合作开展,提出了名为VideoReasonBench的新型基准测试,专门评估多模态大语言模型在视觉为中心的复杂视频推理任务中的表现能力。研究团队发现,包括GPT-4o在内的大多数当前顶尖模型在此类任务中表现不佳(准确率低于10%),唯有思维增强型的Gemini-2.5-Pro模型显著优于其他模型(达到56%准确率)。研究结果表明,拓展思维链推理对现有视频基准测试几乎无益,但对VideoReasonBench至关重要,突显了该测试在评估视频推理能力方面的独特价值。
至顶网 科技行者 2025-06-03 17:01:37