RWKV 推理性能数据
移动端推理性能
ℹ️

RWKV 模型在移动端芯片的推理性能,当前包括高通骁龙 8 Gen3、MTK 天玑 9300 ,后续会添加其他移动端芯片的性能表现。

高通骁龙 8 Gen3

在 Qualcomm Snapdragon SM8650(骁龙 8 Gen3,具体机型为小米 14)上的性能表现:

ModelPrecision每秒生成的 Token 数LAMBADA ppl, acc
RWKV v6 1.6Batt-a16w8 + ffn-a16w442.43685.09183,65.4182%
RWKV v6 1.6Ba16w831.65644.75009,66.3497%
RWKV v6 1.6Bfp1615.04344.63598,67.2618%
RWKV v6 3Batt-a16w8 + ffn-a16w421.31724.46606,68.8725%
RWKV v6 3Ba16w816.21463.9039,71.3647%

MTK 联发科天玑 9300

RWKV 模型在天玑 9300 上的性能表现:

ModelPrecision每秒生成的 Token 数LAMBADA ppl, acc
RWKV v6 1.6Bfp16i826.27434.65207,67.223%
RWKV v6 3Bfp16i813.05993.89911,71.2206%
RWKV v6 7Bfp16i8out of memoryTODO

表格中的参数解释:

  • Model:代表不同参数量的 RWKV-6 模型。
  • Precision:代表不同量化策略或计算精度。
    • att:注意力机制(RWKV 的 time-mixing 部分)
    • ffn:前馈网络(RWKV 的 channel-mixing 部分)
    • a16:激活值被量化为 16 位(int16)
    • w8/w4:权重(weights)被量化为 8 位/4 位(per-channel 线性量化)
    • fp16:16 位浮点数
    • fp16i8:16 位浮点数的 8 位整数量化(int8)
  • LAMBADA ppl:基于 LAMBADA 数据集来计算语言模型的困惑度。困惑度越低,说明语言模型对该数据集的理解和预测能力越强,即模型能够更准确地根据给定的前文预测出后续的文本内容。
  • LAMBADA acc:准确率,即模型在 LAMBADA 任务上的准确程度。