微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集,显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案,每个都经过多样化测试案例验证。关键创新在于三步测试输入生成方法和相互验证机制,确保了数据的高质量和可靠性。实验表明,即使是小型模型也能达到卓越性能——Qwen2.5-7B从17.4%提升至57.3%,甚至在USACO奥林匹克竞赛中超越了规模更大的模型,证明了高质量训练数据比模型规模更重要。
至顶网 科技行者 2025-05-31 11:40:42