德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试,专门评估大型视觉-语言模型理解图表的能力。研究表明,即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率,但最佳模型Gemini-2.5-Pro仅达到63%,开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%,并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战,为未来模型改进提供了明确方向。
至顶网 科技行者 2025-05-22 08:16:20