这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点,并且在WebArena-lite上使用时,性能提升了10.9个百分点,同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标,为构建更可靠、更经济的网络代理奠定了基础。
至顶网 科技行者 2025-05-27 11:35:44