这项由爱丁堡大学和华为研究团队完成的研究探究了大语言模型在多跳问题答案任务中如何处理上下文排列。研究发现:编码器-解码器模型(如Flan-T5)在未微调时表现优于更大规模的因果解码器模型;改变黄金文档顺序揭示了前向排列(符合推理链)带来最佳性能;为因果解码器模型添加双向注意力机制显著提升性能并增强对文档排序变化的鲁棒性;文档间距离越大性能越差;模型在回答正确时往往对关键文档分配更高注意力权重。这些发现为优化检索增强生成系统提供了重要指导。
至顶网 科技行者 2025-05-26 17:56:32