小米LLM-Core团队开源了两款强大的视觉语言模型MiMo-VL-7B-SFT和MiMo-VL-7B-RL,在通用视觉理解和多模态推理领域创下新纪录。仅有7B参数的MiMo-VL-7B-RL在40项评测中的35项上超越Qwen2.5-VL-7B,在OlympiadBench上达到59.4分,超越了参数量达78B的模型。研究采用四阶段预训练与混合在线策略强化学习相结合的方法,处理了2.4万亿个标记。研究发现,预训练阶段纳入高质量推理数据至关重要,而混合强化学习虽提升性能但存在多任务同步优化挑战。
至顶网 科技行者 2025-07-07 17:34:10