这项来自新加坡国立大学等机构的研究引入了REASONMAP,一个用于评估多模态大语言模型细粒度视觉理解能力的基准测试。研究团队使用来自13个国家30个城市的高分辨率交通地图,构建了1,008个问答对,设计了两级评估框架测量答案的正确性和质量。对15个流行模型的评估揭示了一个意外发现:开源领域的基础模型表现优于推理型模型,而闭源模型则相反。研究还表明,当视觉输入被遮盖时,模型性能普遍下降,证明真正的细粒度视觉推理任务仍需要有效整合多模态信息。
至顶网 科技行者 2025-05-29 20:44:14