南京大学与字节跳动联合团队开发的MotionSight系统,为多模态大语言模型提供了"动态视觉增强"能力,解决了现有AI系统在理解视频细粒度动作方面的困难。这一零样本方法通过对象中心的视觉聚光灯和动态模糊技术,显著提升了模型对物体动作和摄像机动作的感知能力,在不需要额外训练的情况下实现了业界领先性能。研究团队同时构建了MotionVid-QA数据集,这是首个专注于细粒度视频动作理解的大规模开源数据集,包含4万多个视频片段和近9万个问答对,为未来研究提供了宝贵资源。
至顶网 科技行者 2025-06-06 14:15:05