华为开源 KVarN：vLLM 原生 KV 缓存量化后端

华为 6 月 4 日在 GitHub 开源 KVarN，这是首个为 vLLM 推理框架量身打造的原生 KV 缓存量化后端。在 70B 参数模型上，KVarN 将显存占用降低 3.2 倍、吞吐量提升 2.1 倍，且首次实现”零精度损失”。

KV 缓存是大模型推理的显存瓶颈。以 Llama 3 70B 为例，单次 8K 上下文推理需要 80GB 显存用于 KV 缓存，几乎吃光一张 H100。KVarN 通过 INT4 量化+自适应分组策略，将这一开销压缩到 25GB，让单卡 70B 推理成为可能。

banner

与已有的 KV 缓存量化方案相比，KVarN 有三大差异点：一是”训练无关”——不需要校准数据集，部署即可用；二是”动态精度”——根据注意力分数自动选择 INT4/INT6/INT8；三是”原生集成”——作为 vLLM 插件直接 import，无需 fork 主仓库。

实测性能数据显示，在 Llama 3 70B + 4×H100 环境下，KVarN 让吞吐量从 1800 tokens/s 提升到 3780 tokens/s；在 Qwen2.5 32B + 单卡 A100 环境下，首 token 延迟从 850ms 降至 230ms。所有测试的 perplexity 变化小于 0.3%。

middle

代码质量获得社区高度认可。vLLM 首席开发者 Woosuk Kwon 在 Twitter 公开称赞”KVarN 是 vLLM 生态期待已久的拼图”，并表示将推动 KVarN 进入 vLLM 0.6 正式版的核心依赖。HuggingFace、Anyscale 等头部平台也在评估集成。

商业价值方面，KVarN 直接降低了大模型推理服务的运营成本。按 AWS p5.48xlarge 实例（8×H100）每小时 98 美元计算，使用 KVarN 后每百万 token 成本可降低约 60%，对月推理量超 10 亿 token 的中型企业意味着每月节省 5-10 万美元。

end

华为在 AI 推理基础设施层的开源布局正在加速。继 openEuler、MindSpore、昇腾硬件生态后，KVarN 填补了大模型推理关键组件。这条”硬件+框架+优化”的全栈路径，是华为在 GPU 封锁背景下另辟蹊径的核心战略。

后续路线图上，华为计划在 3 个月内推出 KVarN 的 INT2 极致量化版本，目标将 KV 缓存再压缩 50%。同时团队还在研发”在线自适应精度”功能——让模型在生成过程中根据当前 attention score 分布动态调整量化位宽，进一步挖掘压缩空间。这条路径如果走通，将彻底改写大模型推理的成本结构。

学术意义上，KVarN 的动态精度策略也开辟了新的研究方向。传统量化研究追求”全局最优”，而 KVarN 证明”局部自适应”可以在工程上达到更好的性价比。已有 3 个学术机构（清华、浙大、CMU）宣布将基于 KVarN 开展后续论文研究。

← 返回文章列表