这篇来自韩国科学技术院(KAIST)的研究介绍了ReFoCUS,一种创新的视频理解方法。不同于传统视频AI模型使用固定的帧采样策略,ReFoCUS通过强化学习教会模型选择最相关的视频帧来回答特定问题。研究团队巧妙地将策略优化从输出文本转向输入视觉层面,让AI能够像人类一样识别关键视觉证据。实验结果表明,这种方法在多个视频问答基准测试中显著提升了性能,特别是在处理复杂的长视频内容时。ReFoCUS代表了视频AI的一个重要范式转变,未来有望应用于更智能的视频内容理解系统。
至顶网 科技行者 2025-06-07 08:28:09