OpenClaw—AI研究OpenClaw—AI研究
  • AI动态
  • OpenClaw教程
  • 技术解读
  • 用户故事

华为开源 KVarN:vLLM 原生 KV 缓存量化后端

华为开源 KVarN:vLLM 原生 KV 缓存量化后端

2026年6月5日 by WoodStone

华为 6 月 4 日在 GitHub 开源 KVarN,这是首个为 vLLM 推理框架量身打造的原生 KV 缓存量化后端。在 70B 参数模型上,KVarN 将显存占用降低 3.2 倍、吞吐量提升 2.1 倍,且首次实现”零精度损失”。

KV 缓存是大模型推理的显存瓶颈。以 Llama 3 70B 为例,单次 8K 上下文推理需要 80GB 显存用于 KV 缓存,几乎吃光一张 H100。KVarN 通过 INT4 量化+自适应分组策略,将这一开销压缩到 25GB,让单卡 70B 推理成为可能。

banner

与已有的 KV 缓存量化方案相比,KVarN 有三大差异点:一是”训练无关”——不需要校准数据集,部署即可用;二是”动态精度”——根据注意力分数自动选择 INT4/INT6/INT8;三是”原生集成”——作为 vLLM 插件直接 import,无需 fork 主仓库。

实测性能数据显示,在 Llama 3 70B + 4×H100 环境下,KVarN 让吞吐量从 1800 tokens/s 提升到 3780 tokens/s;在 Qwen2.5 32B + 单卡 A100 环境下,首 token 延迟从 850ms 降至 230ms。所有测试的 perplexity 变化小于 0.3%。

middle

代码质量获得社区高度认可。vLLM 首席开发者 Woosuk Kwon 在 Twitter 公开称赞”KVarN 是 vLLM 生态期待已久的拼图”,并表示将推动 KVarN 进入 vLLM 0.6 正式版的核心依赖。HuggingFace、Anyscale 等头部平台也在评估集成。

商业价值方面,KVarN 直接降低了大模型推理服务的运营成本。按 AWS p5.48xlarge 实例(8×H100)每小时 98 美元计算,使用 KVarN 后每百万 token 成本可降低约 60%,对月推理量超 10 亿 token 的中型企业意味着每月节省 5-10 万美元。

end

华为在 AI 推理基础设施层的开源布局正在加速。继 openEuler、MindSpore、昇腾硬件生态后,KVarN 填补了大模型推理关键组件。这条”硬件+框架+优化”的全栈路径,是华为在 GPU 封锁背景下另辟蹊径的核心战略。

后续路线图上,华为计划在 3 个月内推出 KVarN 的 INT2 极致量化版本,目标将 KV 缓存再压缩 50%。同时团队还在研发”在线自适应精度”功能——让模型在生成过程中根据当前 attention score 分布动态调整量化位宽,进一步挖掘压缩空间。这条路径如果走通,将彻底改写大模型推理的成本结构。

学术意义上,KVarN 的动态精度策略也开辟了新的研究方向。传统量化研究追求”全局最优”,而 KVarN 证明”局部自适应”可以在工程上达到更好的性价比。已有 3 个学术机构(清华、浙大、CMU)宣布将基于 KVarN 开展后续论文研究。

← 返回文章列表
分类: 技术解读 标记: 大模型, 开源, 技术解读

© 2026 OpenClaw—AI研究 版权所有

沪ICP备2026010690号-1