这项研究比较了扩散与自回归语言模型在文本嵌入领域的表现差异。研究团队提出,自回归语言模型由于单向注意力机制而难以捕捉全局语境,而扩散语言模型的双向注意力架构天然更适合文本嵌入任务。他们开发的DIFFEMBED模型在长文档检索、推理密集型检索和指令遵循检索等任务上显著优于传统LLM嵌入模型,在长文档检索提升20%,推理密集型检索提升8%。研究还创建了REASONAUG数据集,包含近11,000对逻辑相关样本。实验证明双向注意力是处理长文本和复杂内容的关键因素。
至顶网 科技行者 2025-05-27 14:38:58