NVIDIA 硬件
RWKV 模型在 NVIDIA 硬件上的推理性能,包含 RTX 5090、RTX 4090 等显卡的性能数据。
NVIDIA RTX 5090
推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
---|---|---|---|---|
RWKV pip | RWKV7-G1 2.9B | fp16 | 39.55 TPS | 5.52 GB |
测试环境:
- CPU:AMD EPYC 7302
- GPU:NVIDIA GeForce RTX 5090
NVIDIA RTX 4090
RWKV 模型在 NVIDIA RTX 4090 上的性能表现:
推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
---|---|---|---|---|
RWKV pip | RWKV7-G1 2.9B | fp16 | 26.58 | 5.52 GB |
llama.cpp | RWKV7-G1 2.9B | fp16 | 89.16 | 5.75GB |
llama.cpp | RWKV7-G1 2.9B | Q8_0 | 110.3 | 3.47GB |
web-rwkv | RWKV7-G1 2.9B | fp16 | 61 | 5.9GB |
web-rwkv | RWKV7-G1 2.9B | int8 | 68.75 | 3.9GB |
web-rwkv | RWKV7-G1 2.9B | nf4 | 77.76 | 2.4GB |
测试环境:
- CPU:Intel(R) Core(TM) Ultra 5 125H
- GPU:NVIDIA GeForce RTX 4090
这份文档对您有帮助吗?
意见反馈(可选)
联系方式(可选)