这篇研究论文提出机械可解释性研究应优先考虑稀疏自编码器(SAE)的特征一致性问题。研究人员观察到SAE在不同训练运行中常学习到不一致的特征集,这削弱了研究可靠性。他们提出使用成对字典平均相关系数(PW-MCC)来量化一致性,并证明适当架构设计能实现高一致性(TopK SAE达0.80)。研究通过理论分析、合成数据验证和语言模型实验,证实特征激活频率与一致性正相关,且向量相似性与特征语义相似性高度一致。这项工作为建立更可靠、累积的机械可解释性研究提供了重要方向。
至顶网 科技行者 2025-05-29 15:53:24