武汉大学研究团队提出了FRANK模型,一种无需训练的方法,能让视觉语言大模型获得推理和反思能力。研究发现多模态模型中,浅层解码器负责视觉理解,深层负责文本推理,据此设计了一种层次化权重合并策略,将视觉模型与推理模型智能融合。他们通过泰勒展开推导出闭式融合权重公式,并引入注意力引导的指数衰减先验,使模型既保留视觉感知又获得推理能力。实验显示FRANK-38B在MMMU测试中达到69.2%准确率,超越GPT-4o,且展现出卓越的自我纠错能力,为多模态AI提供了无需昂贵训练的新途径。
至顶网 科技行者 2025-05-28 07:37:57