J.P. Morgan AI Research团队开发了EXSTRUCTINY,这是首个专门评估AI系统从文档图像中进行结构化信息提取能力的综合测试基准。该系统包含304个查询-答案对,覆盖表格、报告、演示文稿等多种文档类型,支持三种查询方式,并建立了全新的四维评估标准,全面测试了当前最先进的视觉语言模型,揭示了商业模型优于开源模型18个百分点的性能差距。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。