哈工大(深圳)团队提出VerIPO方法,通过验证器引导的迭代策略优化提升视频大语言模型的长推理能力。该方法创新性地在GRPO和DPO训练阶段之间引入验证器,筛选高质量推理样本,有效解决了传统强化学习方法在推理链质量和上下文一致性方面的不足。实验表明,VerIPO训练的7B参数模型超越了包括Kimi-VL(16B)和Video-R1在内的更大模型,在VSI-Bench等基准测试中取得41.8%的准确率,同时生成更长、更一致的推理链,为视频大模型的深度推理能力培养提供了高效可行的新方法。
至顶网 科技行者 2025-05-31 11:41:26