阿里巴巴Qwen-Doc团队推出的QwenLong-L1框架通过强化学习解决了大型语言模型长文本推理的关键挑战。该框架采用渐进式上下文扩展策略,包含热身监督微调、课程引导分阶段强化学习和难度感知回顾采样三大核心组件。实验表明,QwenLong-L1-32B在七项长文本文档问答基准测试上平均提升5.1个百分点,超越OpenAI-o3-mini等旗舰模型,达到与Claude-3.7-Sonnet-Thinking相当的性能水平,为发展具备强大上下文理解和推理能力的实用长文本语言模型开辟了新路径。
至顶网 科技行者 2025-05-29 08:18:16