浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域,再执行任务。实验表明,ACTIVE-O3在小物体检测、密集物体定位和交互式分割等任务上显著优于现有方法,并展示出强大的零样本推理能力。该研究为AI系统提供了更接近人类认知的视觉探索能力,对自动驾驶、医疗诊断等领域具有重要应用价值。
至顶网 科技行者 2025-05-31 10:05:58