移动端和边缘设备
RWKV 模型在移动端和边缘设备的推理性能,包括高通、MTK Soc 和 RK3588 等各类嵌入式/边缘计算设备。
高通骁龙 8 Gen3
在 骁龙 8 Gen3(小米 14)上的性能表现:
| Model | Precision | 每秒生成的 Token 数 |
|---|---|---|
| RWKV7-G1 2.9B | A16W4 | 31.3 |
| RWKV7-G1 2.9B | A16W8 | 18.7 |
高通骁龙 8 Elite
在 高通骁龙 8 Elite (小米 15) 上的性能表现:
| Model | Precision | 每秒生成的 Token 数 |
|---|---|---|
| RWKV7-G1 2.9B | A16W4 | 30.26 |
| RWKV7-G1 2.9B | A16W8 | 19.34 |
表格中的参数解释:
- Precision:代表不同量化策略或计算精度。
- a16:激活值被量化为 16 位(int16)
- w8/w4:权重(weights)被量化为 8 位/4 位(per-channel 线性量化)
Rockchip RK3588
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| llama.cpp(BLAS) | RWKV7-G1 2.9B | F16 | 3.62 | ~6.5GB 系统内存 |
| llama.cpp(BLAS) | RWKV7-G1 2.9B | Q8_0 | 5.67 | ~3.9GB 系统内存 |
| RKNN-LLM(NPU) | RWKV7-G1 2.9B | FP16 | 4.04 | 5.49GB |
| RKNN-LLM(NPU) | RWKV7-G1 2.9B | W8A8 | 6.58 | 2.80GB |
数据来源:issue #7
测试环境:
- CPU:Rockchip RK3588
- OS version: Armbian 25.5.2 noble on Radxa ROCK 5B
这份文档对您有帮助吗?