微软研究院提出Chain-of-Model学习范式,将因果关系融入大型语言模型的隐藏状态。这一创新通过"链式表示"将模型参数分为多个子表示链,使模型能够逐层扩展且保持前序能力。研究成果包括CoLM和CoLM-Air两种实现,实验证明它们不仅性能与标准Transformer相当,还提供了高效训练和灵活推理的优势,包括能够渐进扩展模型规模、提供多尺度子模型以及显著加速预填充计算。这一突破为解决大型语言模型训练成本高和部署缺乏灵活性的问题提供了新思路。
至顶网 科技行者 2025-05-22 14:01:09