UCLA计算机科学系研究团队提出的"自适应并行解码"(APD)方法,成功解决了扩散大语言模型面临的速度与质量权衡难题。该方法通过动态调整并行生成的词数,结合一个小型辅助自回归模型来评估生成质量,并引入KV缓存和掩码输入限制等优化措施,使扩散模型能在保持高质量输出的同时显著提升生成速度。实验表明,使用APD的Dream 7B模型不仅能达到每秒59个词的吞吐量(比基线提升近6倍),还在数学推理等任务上保持了接近原始水平的准确率,甚至超越了传统自回归模型的速度。
至顶网 科技行者 2025-06-06 17:25:16