NVIDIA联合麻省理工学院和香港大学的研究团队提出Fast-dLLM,一种无需重新训练即可显著加速扩散大语言模型的新方法。该技术通过两大创新解决了扩散模型的主要性能瓶颈:首先设计了适用于双向注意力机制的块式近似KV缓存,使模型能重用计算结果;其次提出基于置信度的并行解码策略,只解码超过阈值的高置信度词元。实验证明,Fast-dLLM在保持准确率的同时,能将LLaDA和Dream模型的推理速度提升高达27.6倍,彻底缩小了扩散模型与自回归模型之间的性能差距。
至顶网 科技行者 2025-06-03 16:59:34