这项研究分析了混合专家模型(MoE)的"局部路由一致性"特性,即连续词元激活相似专家的程度,这对内存受限设备上的模型部署至关重要。研究者提出了两种测量指标:段路由最佳性能(SRP)和段缓存最佳命中率(SCH),分析了20个不同MoE模型。结果表明,在每层都使用MoE且不含共享专家的模型局部路由一致性最高,领域专业化的专家比词汇专业化的专家对一致性贡献更大。研究还发现,缓存大小为激活专家数量2倍时能取得最佳平衡,为MoE模型设计和部署提供了重要指导。
至顶网 科技行者 2025-05-29 08:20:15