这篇研究介绍了DC-CoT,首个专门评估数据操作如何影响思维链(CoT)知识蒸馏的基准系统。北卡罗来纳大学教堂山分校等机构的研究者使用多种教师模型(如Gemini-Pro、Claude-3.5)和学生架构(3B-7B参数),系统评估了数据增强、选择和混合对学生模型在多个推理任务上的表现影响。研究发现数据增强(尤其是逆向思维)最为有效,不同任务需要不同的最优策略组合,且存在"小模型学习能力差距"—较小学生模型可能从匹配其容量的较小教师中学习更有效。
至顶网 科技行者 2025-05-29 13:19:33