基准测试数据

Uncheatable Eval 测试

Uncheatable Eval 是“无法作弊的评测”,它使用最新的论文和新闻文章等实时数据,评估开源大语言模型的真实建模能力和泛化能力。

Uncheatable Eval 测试的结果是压缩率,因此其评分越低,意味着模型性能越好。

以下是 RWKV 和其他模型的 Uncheatable Eval 评分对比:

14B 参数模型

Mistral-Nemo-Base-2407
RWKV-6-14B-v2.1
Llama-2-13b-hf
Qwen1.5-14B
pythia-12b-v0
Average
ao3 english
bbc news
wikipedia english
arxiv computer science
arxiv physics
github cpp
github python
7.11
10.07
8.08
7.95
7.42
7.66
4.20
4.37
7.61
10.19
8.52
8.34
7.92
8.04
4.93
5.33
7.68
10.52
8.28
8.19
8.07
8.31
4.93
5.43
7.70
10.88
8.88
9.10
7.75
7.86
4.67
4.74
8.36
11.29
9.19
9.53
8.54
8.40
5.43
6.13

7B 参数模型

Llama-3.1-8B
Qwen2.5-7B
Qwen2-7B
RWKV-x060-World-7B-v3-20241112-ctx4096
Yi-1.5-6B
RWKV-x060-World-7B-v2.1-20240507-ctx4096
Qwen1.5-7B
RWKV-5-World-7B-v2-20240128-ctx4096
Mistral-7B-v0.1
Minitron-8B-Base
OLMo-1.7-7B-hf
Llama-2-7b-hf
open_llama_7B_v2
Phi-3-small-8k-instruct
pythia-6.9b-v0
Average
ao3 english
bbc news
wikipedia english
arxiv computer science
arxiv physics
github cpp
github python
8.28
10.46
8.20
7.86
7.44
7.56
4.25
4.64
8.32
10.86
8.72
8.60
7.56
7.87
3.98
4.25
8.34
10.75
8.57
8.43
7.70
8.13
4.28
4.47
8.53
10.41
8.73
8.36
7.92
8.18
4.92
5.53
8.55
10.86
8.79
8.53
7.97
8.30
4.75
5.16
8.67
10.34
8.74
8.40
8.00
8.13
5.15
5.72
8.67
11.03
9.11
9.03
7.84
7.99
4.89
5.09
8.78
10.43
8.88
8.50
8.08
8.20
5.22
5.79
8.79
10.47
8.28
8.06
7.74
7.97
4.76
5.25
8.86
10.64
8.64
8.37
7.84
8.30
4.64
5.30
9.27
10.96
8.65
8.52
7.90
8.09
4.99
5.53
9.45
10.77
8.50
8.28
8.22
8.51
5.24
5.94
9.62
11.01
8.83
8.62
8.29
8.65
4.90
5.92
9.69
11.17
8.83
8.38
8.05
8.60
5.37
5.23
10.04
11.42
9.38
9.10
8.57
8.47
5.62
6.57

3B 参数模型

Llama-3.2-3B
Qwen2.5-3B
RWKV-x070-World-2.9B-v3-20250211-ctx4096
stablelm-3b-4e1t
recurrentgemma-2b
RWKV-x060-World-3B-v2.1-20240417-ctx4096
gemma-2-2b
mamba2attn-2.7b
RWKV-5-World-3B-v2-20231113-ctx4096
mamba2-2.7b
Zamba2-2.7B
mamba-2.8b-hf
RWKV-4-World-3B-v1-20230619-ctx4096
pythia-2.8b-v0
granite-3.2-2b-instruct
granite-3.1-2b-instruct
Average
ao3 english
bbc news
wikipedia english
arxiv computer science
arxiv physics
github cpp
github python
7.57
10.90
8.70
8.28
7.78
8.10
4.59
4.65
7.66
11.23
9.15
8.96
7.79
8.25
4.12
4.15
7.74
10.48
8.92
8.47
7.90
8.34
4.88
5.16
7.86
10.89
8.82
8.51
8.15
8.50
4.85
5.28
7.99
11.30
8.94
8.88
8.24
8.52
4.80
5.22
8.08
10.67
9.17
8.82
8.27
8.58
5.38
5.66
8.12
11.35
8.90
9.03
8.38
8.81
5.01
5.36
8.18
11.13
9.28
9.26
8.32
8.29
5.22
5.78
8.23
10.83
9.36
9.00
8.41
8.70
5.51
5.78
8.29
11.21
9.37
9.38
8.43
8.37
5.34
5.93
8.32
10.97
8.95
8.74
8.17
8.70
6.39
6.29
8.41
11.31
9.49
9.53
8.57
8.52
5.46
6.03
8.53
10.90
9.56
9.30
8.90
9.27
5.67
6.07
8.67
11.66
9.74
9.81
8.72
8.73
5.71
6.29
8.80
11.96
10.12
10.31
9.00
9.25
5.50
5.46
8.84
12.00
10.17
10.36
9.04
9.28
5.52
5.48

1.6B 参数模型

Qwen2.5-1.5B
RWKV-x070-World-1.5B-v3-20250127-ctx4096
Llama-3.2-1B
SmolLM2-1.7B
stablelm-2-1_6b
RWKV-x060-World-1B6-v2.1-20240328-ctx4096
RWKV-5-World-1B5-v2-20231025-ctx4096
mamba2-1.3b
MobileLLM-1.5B
mamba-1.4b-hf
Zamba2-1.2B
SmolLM-1.7B
gemma-3-1b-pt
MobileLLM-1B
RWKV-4-World-1.5B-v1-fixed-20230612-ctx4096
pythia-1.4b-v0
Falcon3-1B-Base
Average
ao3 english
bbc news
wikipedia english
arxiv computer science
arxiv physics
github cpp
github python
8.06
11.76
9.58
9.49
8.12
8.65
4.40
4.42
8.16
10.93
9.34
8.97
8.25
8.77
5.29
5.57
8.22
11.69
9.34
9.07
8.37
8.76
5.16
5.18
8.23
11.20
9.40
9.46
8.38
9.04
4.94
5.17
8.34
11.42
9.24
9.06
8.58
9.08
5.45
5.54
8.49
11.09
9.57
9.30
8.62
9.00
5.80
6.06
8.64
11.25
9.75
9.50
8.77
9.11
5.92
6.20
8.68
11.63
9.74
9.86
8.74
8.74
5.71
6.32
8.73
11.59
9.14
9.21
8.82
9.29
6.29
6.79
8.78
11.70
9.83
9.97
8.88
8.86
5.81
6.43
8.83
11.39
9.38
9.26
8.57
9.21
7.08
6.91
8.88
12.68
9.85
9.89
8.38
9.02
6.55
5.76
8.90
12.19
9.36
9.60
8.87
9.56
6.59
6.15
8.97
11.86
9.35
9.43
9.03
9.57
6.53
7.03
9.00
11.33
10.00
9.82
9.34
9.80
6.16
6.54
9.15
12.19
10.20
10.43
9.12
9.20
6.15
6.79
9.45
13.04
10.45
10.75
8.60
9.20
7.16
6.92

MMLU 测试

MMLU 测试(Massive Multitask Language Understanding)是一项用于评估大型语言模型(LLMs)在广泛任务上的多任务语言理解能力的基准测试。

MMLU 涵盖了从初中到研究生水平的57个不同学科,包括数学、物理、历史、法律、生物学等,测试语言模型是否能够在不同领域内进行推理、回答问题和表现出跨学科的知识。

如果使用 lm_eval 的标准格式测试,RWKV-6-World-7B-v2.1 的 MMLU 准确度是 42.8% :

The following are multiple choice questions (with answers) about abstract algebra.
Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.
A. 0
B. 4
C. 2
D. 6
 
Answer:

如果使用 RWKV 的训练的数据格式作为 prompt,RWKV-6-World-7B-v2.1 的 MMLU 是 46.7%:

User: Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.
A. 0
B. 4
C. 2
D. 6
 
Assistant: The answer is

如果使用最适合 RWKV 模型推理的 prompt 模板,RWKV-6-World-7B-v2.1 的 MMLU 是 47.9%:

User: You are a very talented expert in <SUBJECT>. Answer this question:
<Question>
A. <|A|>
B. <|B|>
C. <|C|>
D. <|D|>
 
Assistant: The answer is
这份文档对您有帮助吗?

意见反馈(可选)

联系方式(可选)

On this page