部署 RWKV 模型的显存需求
推荐使用 FP16 精度在本地部署并推理 RWKV 模型。当你的显存和内存不足时,可以使用 INT8 或 NF4 等量化方法运行 RWKV 模型,降低显存和内存需求。
从回答质量来说,同参数的模型 FP16 回答质量最好,INT8 与 FP16 质量相当,NF4 回答质量相比 INT8 明显降低。
模型的参数比量化更重要,比如 7B 模型 + INT8 量化,生成效果比 3B 模型 + FP16 更好。
以下是本地部署并运行 RWKV 模型的显存需求和生成速度:
以下是不同推理后端和对应量化方式(默认量化所有层)的显存/内存需求:
测试环境:
- CPU :i7-10870H
- GPU: RTX 3080 Laptop ,16G 显存
- 内存:32G
推理后端 | 1B6 模型 | 3B 模型 | 7B 模型 | 14B 模型 |
---|---|---|---|---|
CPU-FP32 | 6.6G内存 | 12G内存 | 21G内存 | OOM(不建议使用) |
rwkv.cpp-FP16 | 3.5G内存 | 7.6G内存 | 15.7G内存 | 30G(内存) |
rwkv.cpp-Q5_1 | 2G内存 | 3.7G内存 | 7.2G内存 | 12.4G(内存) |
CUDA-FP16 | 3.2G显存 | 6.2G显存 | 14.3G显存 | 约28.5G显存 |
CUDA-INT8 | 1.9G显存 | 3.4G显存 | 7.7G显存 | 15G显存 |
webgpu-FP16 | 3.2G显存 | 6.5G显存 | 14.4G显存 | 约29G显存 |
webgpu-INT8 | 2G显存 | 4.4G显存 | 8.2G显存 | 16G显存(量化41层,60层约14.8G) |
webgpu-NF4 | 1.3G显存 | 2.6G显存 | 5.2G显存 | 15.1G显存(量化41层,60层约10.4G) |
webgpu(python)-FP16 | 3G显存 | 6.3G显存 | 14G显存 | 约28G显存 |
webgpu(python)-INT8 | 1.9G显存 | 4.2G显存 | 7.7G显存 | 15G显存(量化41层) |
webgpu(python)-NF4 | 1.2G显存 | 2.5G显存 | 4.8G显存 | 14.3G显存(量化41层) |
表格中的推理后端来自不同的推理工具:
- CUDA、CPU 来自 RWKV 官方 pip 包
- rwkv.cpp 来自 rwkv.cpp 项目
- webgpu 来自 web-rwkv 项目,一个基于 webgpu 的 Rust 推理框架
- webgpu(python) 来自 web-rwkv-py,web-rwkv 项目的 Python 版本
以上参数仅作为 RWKV 端侧推理的入门性能参考,随着量化层数等配置项的变化和显卡架构的新旧程度,模型的性能表现可能会改变。
这份文档对您有帮助吗?
意见反馈(可选)
联系方式(可选)