这篇研究论文介绍了ReasonGen-R1,一个由微软与上海科技大学合作开发的创新框架,首次将链式思考(CoT)与强化学习(RL)应用到自回归图像生成模型中。研究通过两阶段方法实现:先用监督微调(SFT)教会模型生成推理文本,再用群组相对策略优化(GRPO)提升生成质量。实验证明该方法在GenEval(+6%)、DPG-Bench(+1.69%)和T2I基准测试(+13.38%)上均优于现有模型,证实"先思考后创作"的方法能显著提高AI图像生成的指令遵循能力和质量。
至顶网 科技行者 2025-06-05 10:20:28