2025年4月,来自AlayaDB AI的研究团队发布了一篇名为《AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference》(AlayaDB:高效高质量长文本LLM推理的数据基础)的论文,该论文详细介绍了一种创新的向量数据库系统,专为大语言模型(LLM)的长文本推理而设计。
这篇研究介绍了一种名为YAQA(Yet Another Quantization Algorithm)的训练后量化技术,由康奈尔大学研究团队开发。与传统方法不同,YAQA不仅关注局部激活误差,而是考虑整个模型的KL散度,通过Kronecker分解的Hessian矩阵估计来实现更精准的参数量化。实验表明,YAQA能将模型与原始版本的KL散度降低约30%,同时在下游任务上实现最先进性能,为大型语言模型的高效部署提供了新方案。