这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
至顶网 科技行者 2025-06-05 11:05:15