RWKV基准测试数据 - RWKV评测数据

Uncheatable Eval 测试

ℹ️

Uncheatable Eval (opens in a new tab) 是“无法作弊的评测”，它使用最新的论文和新闻文章等实时数据，评估开源大语言模型的真实建模能力和泛化能力。

⚠️

Uncheatable Eval 测试的结果是压缩率，因此其评分越低，意味着模型性能越好。

以下是 RWKV 和其他模型的 Uncheatable Eval 评分对比：

14B 参数模型

Mistral-Nemo-Base-2407

RWKV-6-14B-v2.1

Llama-2-13b-hf

Qwen1.5-14B

pythia-12b-v0

Average

ao3 english

bbc news

wikipedia english

arxiv computer science

arxiv physics

github cpp

github python

7.11

10.07

8.08

7.95

7.42

7.66

4.20

4.37

7.61

10.19

8.52

8.34

7.92

8.04

4.93

5.33

7.68

10.52

8.28

8.19

8.07

8.31

4.93

5.43

7.70

10.88

8.88

9.10

7.75

7.86

4.67

4.74

8.36

11.29

9.19

9.53

8.54

8.40

5.43

6.13

7B 参数模型

Llama-3.1-8B

Qwen2.5-7B

Qwen2-7B

RWKV-x060-World-7B-v3-20241112-ctx4096

Yi-1.5-6B

RWKV-x060-World-7B-v2.1-20240507-ctx4096

Qwen1.5-7B

RWKV-5-World-7B-v2-20240128-ctx4096

Mistral-7B-v0.1

Minitron-8B-Base

OLMo-1.7-7B-hf

Llama-2-7b-hf

open_llama_7B_v2

Phi-3-small-8k-instruct

pythia-6.9b-v0

Average

ao3 english

bbc news

wikipedia english

arxiv computer science

arxiv physics

github cpp

github python

8.28

10.46

8.20

7.86

7.44

7.56

4.25

4.64

8.32

10.86

8.72

8.60

7.56

7.87

3.98

4.25

8.34

10.75

8.57

8.43

7.70

8.13

4.28

4.47

8.53

10.41

8.73

8.36

7.92

8.18

4.92

5.53

8.55

10.86

8.79

8.53

7.97

8.30

4.75

5.16

8.67

10.34

8.74

8.40

8.00

8.13

5.15

5.72

8.67

11.03

9.11

9.03

7.84

7.99

4.89

5.09

8.78

10.43

8.88

8.50

8.08

8.20

5.22

5.79

8.79

10.47

8.28

8.06

7.74

7.97

4.76

5.25

8.86

10.64

8.64

8.37

7.84

8.30

4.64

5.30

9.27

10.96

8.65

8.52

7.90

8.09

4.99

5.53

9.45

10.77

8.50

8.28

8.22

8.51

5.24

5.94

9.62

11.01

8.83

8.62

8.29

8.65

4.90

5.92

9.69

11.17

8.83

8.38

8.05

8.60

5.37

5.23

10.04

11.42

9.38

9.10

8.57

8.47

5.62

6.57

3B 参数模型

Llama-3.2-3B

Qwen2.5-3B

stablelm-3b-4e1t

recurrentgemma-2b

RWKV-x060-World-3B-v2.1-20240417-ctx4096

mamba2attn-2.7b

gemma-2b

RWKV-5-World-3B-v2-20231113-ctx4096

mamba2-2.7b

open_llama_3b_v2

Zamba2-2.7B

mamba-2.8b-hf

RWKV-4-World-3B-v1-20230619-ctx4096

pythia-2.8b-v0

phi-2

RedPajama-INCITE-Base-3B-v1

btlm-3b-8k-base

RWKV-4-Pile-3B-20221110-ctx4096

Sheared-LLaMA-2.7B

mamba-2.8b-slimpj

OpenELM-3B

Average

ao3 english

bbc news

wikipedia english

arxiv computer science

arxiv physics

github cpp

github python

7.73

11.00

8.68

8.44

7.91

8.13

4.83

5.11

7.80

11.34

9.12

9.04

7.91

8.29

4.33

4.58

7.99

10.99

8.79

8.49

8.27

8.54

5.04

5.78

8.12

11.40

8.92

8.90

8.34

8.54

5.02

5.71

8.22

10.76

9.15

8.91

8.39

8.61

5.60

6.15

8.27

11.21

9.23

8.99

8.41

8.30

5.41

6.34

8.34

11.68

9.13

9.12

8.58

8.76

5.20

5.88

8.37

10.91

9.34

9.07

8.52

8.73

5.72

6.26

8.38

11.30

9.32

9.10

8.52

8.38

5.53

6.50

8.39

11.40

9.15

9.00

8.63

9.05

5.22

6.24

8.46

11.09

8.92

8.61

8.29

8.76

6.68

6.90

8.49

11.40

9.43

9.19

8.66

8.53

5.64

6.60

8.65

10.98

9.52

9.29

9.01

9.31

5.85

6.62

8.74

11.74

9.68

9.45

8.82

8.75

5.89

6.84

8.77

12.23

9.26

8.84

8.70

9.75

6.70

5.87

8.80

11.61

9.13

8.94

8.78

9.10

6.59

7.50

8.87

11.77

9.07

8.76

8.46

8.78

7.31

7.94

8.91

11.73

9.75

9.60

9.10

8.95

6.12

7.11

9.03

11.52

9.14

9.22

8.99

9.54

6.99

7.81

9.17

13.94

9.63

8.78

8.59

8.82

6.92

7.51

9.57

14.16

10.06

9.46

9.05

9.40

7.25

7.61

1.6B 参数模型

Qwen2.5-1.5B

Llama-3.2-1B

Qwen2-1.5B

RWKV-x060-World-1B6-v2.1-20240328-ctx4096

mamba2-1.3b

RWKV-5-World-1B5-v2-20231025-ctx4096

mamba-1.4b-hf

TinyLlama-1.1B-intermediate-step-1431k-3T

Zamba2-1.2B

OLMo-1B-hf

RWKV-4-World-1.5B-v1-fixed-20230612-ctx4096

pythia-1.4b-v0

RWKV-4-Pile-1B5-20220903-8040

Sheared-LLaMA-1.3B

OpenELM-1_1B

phi-1_5

TransNormerLLM-1B

falcon-rw-1b

Average

ao3 english

bbc news

wikipedia english

arxiv computer science

arxiv physics

github cpp

github python

8.19

11.85

9.55

9.54

8.24

8.70

4.62

4.86

8.38

11.78

9.31

9.17

8.49

8.81

5.43

5.65

8.39

11.72

9.45

9.48

8.64

9.22

5.06

5.17

8.63

11.17

9.56

9.36

8.74

9.04

6.01

6.55

8.75

11.71

9.68

9.50

8.84

8.77

5.90

6.86

8.78

11.33

9.73

9.53

8.87

9.15

6.14

6.68

8.86

11.79

9.77

9.58

8.98

8.89

6.01

6.99

8.93

12.34

9.74

9.65

9.18

9.67

5.67

6.26

8.98

11.49

9.34

9.10

8.69

9.28

7.40

7.53

9.12

12.07

9.60

9.86

9.15

9.81

6.32

6.99

9.13

11.41

9.95

9.79

9.45

9.85

6.37

7.09

9.22

12.26

10.14

9.98

9.22

9.24

6.35

7.32

9.33

12.15

10.16

10.03

9.49

9.38

6.55

7.58

9.71

12.14

9.70

9.82

9.57

10.28

7.83

8.63

10.07

15.05

10.55

9.97

9.39

9.90

7.70

7.97

10.30

13.38

11.06

12.43

9.86

11.65

7.23

6.49

10.39

12.84

10.51

10.65

10.54

11.21

7.83

9.18

11.93

12.08

9.57

9.88

9.55

10.43

15.78

16.26

MMLU 测试

ℹ️

MMLU 测试（Massive Multitask Language Understanding）是一项用于评估大型语言模型（LLMs）在广泛任务上的多任务语言理解能力的基准测试。

MMLU 涵盖了从初中到研究生水平的57个不同学科，包括数学、物理、历史、法律、生物学等，测试语言模型是否能够在不同领域内进行推理、回答问题和表现出跨学科的知识。

如果使用 lm_eval 的标准格式测试，RWKV-6-World-7B-v2.1 的 MMLU 准确度是 42.8% ：

The following are multiple choice questions (with answers) about abstract algebra.
Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.
A. 0
B. 4
C. 2
D. 6
 
Answer:

如果使用 RWKV 的训练的数据格式作为 prompt，RWKV-6-World-7B-v2.1 的 MMLU 是 46.7%：

User: Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.
A. 0
B. 4
C. 2
D. 6
 
Assistant: The answer is

如果使用最适合 RWKV 模型推理的 prompt 模板，RWKV-6-World-7B-v2.1 的 MMLU 是 47.9%：

User: You are a very talented expert in <SUBJECT>. Answer this question:
<Question>
A. <|A|>
B. <|B|>
C. <|C|>
D. <|D|>
 
Assistant: The answer is

ℹ️

数据来源：https://github.com/Jellyfish042/rwkv_mmlu (opens in a new tab)

RWKV 架构及历史长文本基准测试数据