DINO-R1是博世与德州农工大学研究团队开发的创新视觉基础模型,首次将强化学习应用于增强视觉模型的推理能力。该模型通过群组相对查询优化(GRQO)技术,解决了视觉提示检测中高方差问题,实现对多样化视觉示例的有效理解。DINO-R1引入查询级相对奖励和KL散度正则化,提供更密集的监督信号并稳定训练过程。在COCO、LVIS和ODinW等多个数据集上的实验表明,该模型显著优于传统监督微调方法,在开放词汇和封闭集视觉提示场景中均展现出强大的泛化能力。
至顶网 科技行者 2025-06-05 10:27:54