RWKV

长文本基准测试数据

RULER 测试

RULER 测试是一个新的 LLM 测试方法,相比于 NIAH 大海捞针测试做了优化和扩展,其包含四种测试任务:增强的检索任务(NIAH 扩展版本)、多跳跟踪(Multi-hop Tracing)、信息聚合(CWE、FWE)、带干扰的问答(QA)。

增强的大海捞针(NIAH)

RULER 包含增强的大海捞针(NIAH)测试,分为四个子任务,评估模型的检索能力:

测试子项目简要描述
Single NIAH (S-NIAH)测试模型处理单一输入和单一目标输出的能力。
Multi-keys NIAH (MK-NIAH)测试模型处理多键值对的能力,其中每个键关联一个单一输出。
Multi-values NIAH (MV-NIAH)测试模型处理多键值对的能力,其中每个键关联多个值或输出。
Multi-queries NIAH (MQ-NIAH)测试模型在多个查询条件下,综合处理并生成相应结果的能力。

Single NIAH 的测试结果如下:

模型NIAH_single_1NIAH_single_2NIAH_single_3
RWKV-6-7B-v2.1-4k10098.6795
Llama2-7B-4k97.610096.8
Mamba-2.8B-4k100191
Mamba-1.4B-4k94215
RWKV-6-3B-v2.1-4k1008879
RWKV-6-1.6B-v2.1-4k985355

NIAH-Multi-keys 的测试结果如下:

模型NIAH_multikey_1NIAH_multikey_2NIAH_multikey_3
RWKV-6-7B-v2.1-4k48.337.671.33
Llama2-7B-4k10084.460
Mamba-2.8B-4k701
Mamba-1.4B-4k800
RWKV-6-3B-v2.1-4k3610
RWKV-6-1.6B-v2.1-4k2510

Multi-values 和 Multi-queries 的 NIAH 测试结果如下:

模型NIAH_multivalueNIAH_multiquery
RWKV-6-7B-v2.1-4k80.4283.67
Llama2-7B-4k9496.7
Mamba-2.8B-4k0.751.25
Mamba-1.4B-4k5.254.75
RWKV-6-3B-v2.1-4k38.540.75
RWKV-6-1.6B-v2.1-4k2520.75

变量跟踪(VT)

多跳跟踪 - 变量跟踪(Multi-hop Tracing: Variable Tracking):该任务主要检查模型能否在长上下文中成功识别并跟踪具有多跳连接的实体(变量)和指代关系。比如赋值 X1=VX_1 = V ,然后 X2=X1X_2 = X_1X3=X2X_3 = X_2 ... 最终返回所有指向值 VV 的变量名。

模型多跳跟踪
RWKV-6-7B-v2.1-4k7.53
Llama2-7B-4k63.12
Mamba-2.8B-4k45
Mamba-1.4B-4k23.4
RWKV-6-3B-v2.1-4k11.8
RWKV-6-1.6B-v2.1-4k1.4

信息聚合(CWE、FWE)

信息聚合(CWE、FWE):该任务为常用词(Common Words)/高频词(Frequent Words)提取,用于测试模型跨长上下文聚合常见信息的能力

模型常用词提取 (CWE)高频词提取 (FWE)
RWKV-6-7B-v2.1-4k38.678.33
Llama2-7B-4k73.0478.8
Mamba-2.8B-4k253
Mamba-1.4B-4k15.557.33
RWKV-6-3B-v2.1-4k30.362.67
RWKV-6-1.6B-v2.1-4k1146.33

问答(QA)

问答(QA):该任务在现有短上下文问答数据集的输入中添加了干扰信息,以评估各种上下文大小下的问答能力。

模型qa_1qa_2
RWKV-6-7B-v2.1-4k4537
Llama2-7B-4k59.242
Mamba-2.8B-4k2318
Mamba-1.4B-4k2423
RWKV-6-3B-v2.1-4k3525
RWKV-6-1.6B-v2.1-4k3528

LongBench 测试

LongBench 测试是一个针对大语言模型长文本理解能力的评测基准。

LongBench 共有六大类、二十一个不同的中英双语任务,覆盖了单文档 QA、多文档 QA、摘要、Few-shot 学习、合成任务和代码补全等关键的长文本应用场景。

以下是 RWKV 和其他模型的 LongBench 测试分数对比,数据表格按照六个分类展示:

Single-Document QA (单文档问答)

单文档问答包含以下四种测试任务:

任务任务说明
NarrativeQA基于故事或剧本提问,包括对人物、情节、主题等重要元素的理解
Qasper基于单篇论文的提出,问题由 NLP 的读者提出,并由 NLP 从业者回答
MultiFieldQA-en基于单篇文档回答英文问题,文档所属的领域相对多元
MultiFieldQA-zh基于单篇文档回答中文问题,文档所属的领域相对多元

Single-Document QA 测试结果:

模型NarrativeQAQasperMultiFieldQA-enMultiFieldQA-zh
GPT-3.5-Turbo-16k23.643.352.361.2
Llama2-7B-chat-4k18.719.236.811.9
LongChat-v1.5-7B-32k16.927.741.429.1
XGen-7B-8k18.018.137.714.8
InternLM-7B-8k12.116.723.433.6
ChatGLM2-6B-32k21.131.546.251.6
Vicuna-v1.5-7B-16k19.426.138.543.0
ChatGLM3-6B-32k26.043.351.762.3
Mamba_1B42.23 4.44 11.33 13.03 
Mamba_2B82.32 4.89 8.15 6.83 
Llama2-7B18.7 19.2 11.90 36.8 
Mistral-7B12.798.930.5517.91
RWKV-6-World-1B6-v2.14.53 19.79 22.99 18.57 
RWKV-6-World-3B-v2.12.87 14.2 18.78 21.49 
RWKV-6-World-7b-v2.1-4k20.75 40.2 36.01 50.19 

Multi-Document QA(多文档问答)

多文档问答包含以下四种测试任务:

任务任务说明
HotpotQA基于 HotpotQA 文档回答问题,HotpotQA 涉及许多由母语人士根据两个相关段落编写的 2 跳问题
2WikiMultihopQA基于 2WikiMultihopQA 数据回答问题,2WikiMultihopQA 由最多 5 跳问题组成,这些问题通过手动设计的模板合成
MuSiQue基于 MuSiQue 数据回答问题,MuSiQue 由最多 4 跳推理(4-hop reasoning)的简单问题组合而成
DuReader基于 DuReader 的中文数据集回答相关问题,包含来自基于百度搜索和百度知道的 20 万个问题和 1M 文档

Multi-Document QA 测试结果:

模型HotpotQA2WikiMQAMusiqueDuReader (zh)
GPT-3.5-Turbo-16k51.637.726.928.7
Llama2-7B-chat-4k25.432.89.45.2
LongChat-v1.5-7B-32k31.520.69.719.5
XGen-7B-8k29.721.110.311.0
InternLM-7B-8k28.722.89.011.1
ChatGLM2-6B-32k45.134.021.937.6
Vicuna-v1.5-7B-16k25.320.89.819.3
ChatGLM3-6B-32k54.444.940.444.78
Mamba_1B45.73 8.77 3.3 11.95 
Mamba_2B85.49 8.45 3.45 13.96 
Llama2-7B25.4 32.8 9.4 5.2 
Mistral-7B9.3911.174.5811.68
RWKV-6-World-1B6-v2.18.72 11.86 3.96 11.40 
RWKV-6-World-3B-v2.16.79 9.64 4.13 17.41 
RWKV-6-World-7b-v2.1-4k22.74 16.3 10.49 28.01 

Summarization(摘要)

摘要任务涉及以下四种测试:

任务任务说明
GovReport摘要任务,要求对政府的工作报告进行总结摘要
QMSum摘要任务,要求基于用户的查询对会议记录进行摘要
MultiNews多文档摘要任务,要求基于多篇新闻进行摘要
VCSUM摘要任务,要求对中文会议记录进行总结摘要

摘要任务测试结果如下:

模型GovReportQMSumMultiNewsVCSUM (zh)
GPT-3.5-Turbo-16k29.523.426.716.0
Llama2-7B-chat-4k27.320.825.80.2
LongChat-v1.5-7B-32k30.822.726.49.9
XGen-7B-8k27.320.526.22.2
InternLM-7B-8k9.715.922.812.4
ChatGLM2-6B-32k32.424.026.516.2
Vicuna-v1.5-7B-16k27.922.827.215.1
ChatGLM3-6B-32k36.823.927.917.8
Mamba_1B49.34 10.85 15.86 6.33 
Mamba_2B810.41 11.42 18.94 6.1 
Llama2-7B27.3 20.8 25.8 0.2 
Mistral-7B28.8420.3222.794.1
RWKV-6-World-1B6-v2.117.51 20.36 21.52 10.71 
RWKV-6-World-3B-v2.119.21 21 21.76 10.18 
RWKV-6-World-7b-v2.1-4k31.64 21.31 26.06 15.19 

Few-shot Learning(小样本学习)

小样本学习包含以下四种测试任务:

任务任务说明
TREC分类任务,要求对问题进行分类,一共包含 50 个类别
TriviaQA单文档问答任务,提供若干的 Few Shot 样例
SAMSum对话摘要任务,提供若干的 Few Shot 样例
LSHT中文分类任务,要求对新闻进行分类,一共包含 24 个类别

Few-shot Learning测试结果如下:

模型TRECTriviaQASAMSumLSHT (zh)
GPT-3.5-Turbo-16k68.091.441.729.2
Llama2-7B-chat-4k61.577.840.719.8
LongChat-v1.5-7B-32k63.582.334.223.2
XGen-7B-8k65.577.825.320.5
InternLM-7B-8k52.077.821.215.2
ChatGLM2-6B-32k62.578.736.327.7
Vicuna-v1.5-7B-16k71.586.240.828.8
ChatGLM3-6B-32k79.087.138.242.0
Mamba_1B445.5 37.33 12.56 8.5 
Mamba_2B821.5 34.62 9.3 
Llama2-7B61.5 77.8 40.7 19.8 
Mistral-7B70.089.2643.7425.5
RWKV-6-World-1B6-v2.139.5 47.64 13.58 18.8 
RWKV-6-World-3B-v2.151.5 57.15 17.95 15.2 
RWKV-6-World-7b-v2.1-4k55.5 86.89 44.25 30.2 

Synthetic Tasks(合成任务)

合成任务测试任务包含以下三种测试任务:

任务任务说明
PassageCount判断给定的若干的段落中不重复的段落一共有几个
PassageRetrieval-en给定 30 个英文维基的段落,判断给定的摘要属于哪个段落
PassageRetrieval-zh给定若干个出自 C4 数据集的中文段落,判断给定的摘要属于哪个段落

Synthetic Tasks 测试结果如下:

模型Passage CountPassageRetrieval-enPassageRetrieval-zh
GPT-3.5-Turbo-16k4.571.077.5
Llama2-7B-chat-4k2.19.80.5
LongChat-v1.5-7B-32k1.030.57.6
XGen-7B-8k2.18.53.5
InternLM-7B-8k3.06.00.9
ChatGLM2-6B-32k1.577.064.5
Vicuna-v1.5-7B-16k6.54.55.0
ChatGLM3-6B-32k2.099.094.0
Mamba_1B40.45 3.32 3.81 
Mamba_2B80.74 1.83 3.37 
Llama2-7B2.1 9.8 0.5 
Mistral-7B1.0512.516.75
RWKV-6-World-1B6-v2.14.25 4.16 
RWKV-6-World-3B-v2.13.83 4.12 
RWKV-6-World-7b-v2.1-4k34.5 54.22 

Code Completion(代码续写)

代码续写包含以下两种测试任务:

任务任务说明
LCC给定一段较长代码,要求预测出下一行代码
RepoBench-P给定一个 github 仓库内多个文件中的代码(包含文件间依赖),要求预测出下一行代码

代码续写测试结果如下:

模型LCCRepoBench-P
GPT-3.5-Turbo-16k54.753.6
Llama2-7B-chat-4k52.443.8
LongChat-v1.5-7B-32k53.055.3
XGen-7B-8k38.638.6
InternLM-7B-8k44.128.8
ChatGLM2-6B-32k55.649.9
Vicuna-v1.5-7B-16k51.043.5
ChatGLM3-6B-32k57.6654.76
Mamba_1B444.33 41.86 
Mamba_2B839.53 24.38 
Llama2-7B52.4 43.8 
Mistral-7B70.6459.7
RWKV-6-World-1B6-v2.139.5 40.44 
RWKV-6-World-3B-v2.140.01 41.35 
RWKV-6-World-7b-v2.1-4k73.84 54.1 

RWKV、Mamba 和 Llama2 的综合评分对比

模型Single DocQFew-shcSummarizationMulti Doc QACode CompletionSyntetic
RWKV-6-World-1B6-v2.116.470 29.868 17.525 8.985 39.970 2.803 
RWKV-6-World-3B-v2.114.335 35.443 18.038 9.493 40.680 2.650 
RWKV-6-World-7b-v2.1-4k36.788 54.203 23.550 19.385 63.970 31.240 
Mamba_1B47.758 25.973 10.595 7.438 43.095 2.527 
Mamba_2B85.548 17.605 11.718 7.838 31.955 1.980 
Llama2-7B21.650 49.950 18.525 18.200 48.100 4.133 
Mistral-7B17.53852.83319.0139.20565.1710.100
这份文档对您有帮助吗?
联系我们© 2026 RWKV. All rights reserved.粤ICP备2024242518号-1