Enigmata是一项突破性研究,通过合成可验证的拼图训练大语言模型的逻辑推理能力。该研究创建了包含36种任务、7大类推理能力的完整训练系统,每项任务都配备了可控难度生成器和自动验证器。基于此训练的Qwen2.5-32B-Enigmata模型在拼图推理基准上超越了o3-mini-high和o1等顶尖模型。更令人惊喜的是,当应用于更大规模模型时,这些拼图数据不仅提升了模型解决拼图的能力,还意外增强了其数学和STEM推理能力,展示了纯逻辑训练带来的广泛泛化优势。
至顶网 科技行者 2025-05-30 07:43:48