SophiaVL-R1是香港中文大学和上海人工智能实验室联合开发的多模态大语言模型,创新性地引入了"思维奖励"机制来提升AI的推理能力。与传统方法不同,该研究不仅关注AI是否得出正确答案,还评估整个思考过程的质量,通过Trust-GRPO算法智能地整合思维奖励和结果奖励。实验表明,即使只有7B参数,SophiaVL-R1也能在MathVista、MMMU等多个基准测试中超越参数量大10倍的模型,证明了思维过程监督对提升AI泛化推理能力的重要价值。
至顶网 科技行者 2025-05-28 08:09:15