这项研究提出了VIDEO-SKILL-COT(别名VIDEO-SKOT),一种新型视频理解框架,能自动构建和利用技能感知的思维链进行领域自适应视频推理。北卡罗来纳大学教堂山分校的研究人员首先从训练问题中提取领域相关推理技能并聚类成共享技能分类法,然后为每个视频-问题对创建定制的多步骤思维链。接着,他们开发了技能专家学习框架,每个专家模块专注于特定推理技能集。在三个不同的视频理解基准测试上,该方法一致优于现有系统,显示了其出色的领域适应能力。
至顶网 科技行者 2025-06-09 07:24:00