SEALQA是维吉尼亚理工大学研究团队开发的新型基准测试,旨在评估搜索增强型语言模型在面对矛盾、嘈杂或无用搜索结果时的推理能力。它包含三种测试:SEAL-0(极具挑战性的核心问题集)、SEAL-HARD(更广泛的困难问题集)和LONGSEAL(测试长上下文多文档推理)。研究发现,即使是前沿模型在这些测试中表现也很差,增加测试时计算资源往往不能带来可靠的性能提升,高级推理模型对嘈杂搜索结果特别敏感,模型在识别大量干扰文档中的相关信息时仍然困难重重。
至顶网 科技行者 2025-06-06 12:25:05