这篇研究介绍了一种名为YAQA(Yet Another Quantization Algorithm)的训练后量化技术,由康奈尔大学研究团队开发。与传统方法不同,YAQA不仅关注局部激活误差,而是考虑整个模型的KL散度,通过Kronecker分解的Hessian矩阵估计来实现更精准的参数量化。实验表明,YAQA能将模型与原始版本的KL散度降低约30%,同时在下游任务上实现最先进性能,为大型语言模型的高效部署提供了新方案。
Zoom Communications的研究团队开发了一种突破性技术,能够显著降低人工智能系统在处理复杂推理问题时所需的成本和计算资源,可能会改变企业大规模部署AI的方式。该方法称为草稿链(Chain of Draft,CoD),使大型语言模型能够用最少的文字解决问题——所需文本仅为当前方法的7.6%,同时保持或甚至提高准确性。研究结果上周在arXiv研究库中发表。