东京大学研究团队开发的WebChoreArena是一个全新的网页代理评估基准,它包含532个精心设计的任务,专注于测试AI代理处理繁琐、复杂网页任务的能力。研究结果显示,即使是最先进的语言模型(如Gemini 2.5 Pro)在这些挑战性任务上的表现也比常规任务降低了约14个百分点,证明了这一基准有效区分了不同模型的能力。WebChoreArena通过设计海量记忆、计算、长期记忆等类型的任务,为评估AI代理在实际应用场景中的表现提供了更严格的标准。
至顶网 科技行者 2025-06-05 15:25:34