这项研究揭示了现有长视频理解评估基准的严重缺陷:过度依赖多选题导致结果膨胀,且许多问题存在先验偏好使模型无需真正理解视频就能作答。针对这些问题,多伦多大学团队开发了VIDEOEVAL-PRO基准,采用开放式短答案形式,真正要求理解整个视频。通过评估21个专有和开源模型,研究发现:视频模型在开放式问题上的表现比多选题下降超过25%,且多选题高分并不意味着开放式题高分。与其他基准不同,VIDEOEVAL-PRO随输入帧数增加持续提升性能,提供了更可靠的长视频理解能力评估方法。
至顶网 科技行者 2025-05-26 08:16:36