部署 RWKV 模型的显存需求

推荐使用 FP16 精度在本地部署并推理 RWKV 模型。当你的显存和内存不足时,可以使用 INT8 或 NF4 等量化方法运行 RWKV 模型,降低显存和内存需求。

从回答质量来说,同参数的模型 FP16 回答质量最好,INT8 与 FP16 质量相当,NF4 回答质量相比 INT8 明显降低。

模型的参数比量化更重要,比如 7B 模型 + INT8 量化,生成效果比 3B 模型 + FP16 更好。

以下是本地部署并运行 RWKV 模型的显存需求和生成速度:

以下是不同推理后端和对应量化方式(默认量化所有层)的显存/内存需求:

测试环境:

  • CPU :i7-10870H
  • GPU: RTX 3080 Laptop ,16G 显存
  • 内存:32G
推理后端1B6 模型3B 模型7B 模型14B 模型
CPU-FP326.6G内存12G内存21G内存OOM(不建议使用)
rwkv.cpp-FP163.5G内存7.6G内存15.7G内存30G(内存)
rwkv.cpp-Q5_12G内存3.7G内存7.2G内存12.4G(内存)
CUDA-FP163.2G显存6.2G显存14.3G显存约28.5G显存
CUDA-INT81.9G显存3.4G显存7.7G显存15G显存
webgpu-FP163.2G显存6.5G显存14.4G显存约29G显存
webgpu-INT82G显存4.4G显存8.2G显存16G显存(量化41层,60层约14.8G)
webgpu-NF41.3G显存2.6G显存5.2G显存15.1G显存(量化41层,60层约10.4G)
webgpu(python)-FP163G显存6.3G显存14G显存约28G显存
webgpu(python)-INT81.9G显存4.2G显存7.7G显存15G显存(量化41层)
webgpu(python)-NF41.2G显存2.5G显存4.8G显存14.3G显存(量化41层)

表格中的推理后端来自不同的推理工具:

以上参数仅作为 RWKV 端侧推理的入门性能参考,随着量化层数等配置项的变化和显卡架构的新旧程度,模型的性能表现可能会改变。

这份文档对您有帮助吗?

意见反馈(可选)

联系方式(可选)