谷歌的 TurboQuant 论文最近火出了 AI 研究领域,这篇被全球 AI 研究顶会 ICLR 2026 接收的论文介绍了一种压缩算法,声称 能够将大语言模型的 KV 缓存内存占用减少至少 6 倍,速度提升高达 8 倍,且精度零损失 ...