这项由香港科技大学研究团队开展的创新研究揭示了大型语言模型(LLM)执行指令能力背后的神经机制。研究者通过提出SPARCOM分析框架,成功识别并分析了"指令特定神经元"和"指令特定专家"这两类稀疏组件在模型内部的分布与功能。通过精心设计的HEXAINST数据集,研究发现这些组件不仅具有功能通用性和独特性,而且在模型微调过程中发生显著变化。研究结果表明,模型的指令执行能力主要源于这些稀疏组件的精确激活,为理解LLM内部工作机制提供了新视角,对构建更可靠的AI系统具有重要指导意义。
至顶网 科技行者 2025-06-02 12:19:32