这篇研究介绍了KVzip,一种创新的查询无关KV缓存压缩方法,通过上下文重建机制为大型语言模型提供高效存储解决方案。该技术能将KV缓存大小减少394倍,同时提高解码速度约2倍,在各种任务上性能几乎不受影响。不同于传统查询相关的压缩方法,KVzip创建可在多种查询场景下重用的通用压缩缓存,特别适合个性化AI助手和企业信息检索系统。研究在LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B等多种模型上进行了验证,处理长度高达17万词元的文本,并能与KV缓存量化等其他优化技术无缝集成。
至顶网 科技行者 2025-06-03 15:18:58