这篇研究论文介绍了一种名为ConvSearch-R1的创新方法,它彻底改变了对话式搜索中的查询重构方式。由复旦大学等机构研发的这一技术,通过强化学习与推理能力相结合,完全摆脱了对人工标注或大型语言模型的依赖。研究采用两阶段框架:自驱动策略预热解决冷启动问题,检索引导的强化学习则通过精心设计的奖励机制优化查询重写。实验表明,即使使用较小的3B参数模型,ConvSearch-R1也能在TopiOCQA数据集上实现超过10%的性能提升,展示了显著的技术优势和资源效率。
至顶网 科技行者 2025-05-27 14:31:19