RWKV 的训练数据集
RWKV 使用 World 系列训练数据集,包含全球一百多种语言。我们正在持续迭代 World 系列训练数据集,不断地提升数据集的规模和质量,使 RWKV 模型拥有强劲的多语言能力。
此章节简要介绍 RWKV World 系列数据集的数据组成、数据来源、数据量等信息。
RWKV 数据集概况
目前 World 数据集共有以下版本:
版本号 | 总数据量 | 对应的 RWKV 基底模型 |
---|---|---|
World v1 | 约 0.59T tokens | RWKV-4 系列(已淘汰) |
World v2 | 约 1.1T tokens | RWKV-5 系列(已淘汰) |
World v2.1 | 约 1.42T tokens | RWKV-6 系列 |
World v2.8 | 从 World v3 中随机采样约 1T tokens | RWKV-7-World 0.1B |
World v2.9 | 从 World v3 中随机采样约 2T tokens | RWKV-7-World 0.4B |
World v3 | 约 3.1T tokens | RWKV-6-World 7B v3,RWKV-7-World 1.5B/2.9B |
World v3.5 | 约 5.16T tokens | RWKV7-G1 1.5B/2.9B |
World v3.7 | 收集整理中 | RWKV7-G1 7B/14B 和更大参数模型 |
RWKV7-G1 0.1B 从 World v3.5 数据集中随机采样 1T tokens 训练
RWKV7-G1 0.4B 从 World v3.5 数据集中随机采样 2T tokens 训练
各版本数据集的细节
秉持着“开源开放”的精神,我们在 RWKV 的架构论文中开源了 World 系列数据集的组成和来源。
前往论文查看:
- World v2 的详细介绍可以在 RWKV-5/6 论文的
Training Dataset Details
板块中找到。 - World v2.1/v3 的详细介绍可以在 RWKV-7 论文的
Training Dataset Details
板块中找到。
以下内容摘录于论文:
World v2 数据集
RWKV-6 的 v2 训练数据集涉及多个领域,具体包含以下内容:
脚注:
- 对于维基百科(Wikipedia),我们收集了截至 2023 年 4 月 1 日的所有语言版本,并对某些语言进行了随机子采样。
- 对于 StarCoder,我们仅使用了至少有 10 颗星的数据集。
- 对于 OSCAR23.01,我们仅使用非英语语言的部分,并对某些语言进行了随机子采样。
- 表示该数据的原始仓库链接已失效,但 RWKV 数据集仍在使用这部分数据
World v2.1 数据集
World v2.1 数据集基于 World v2 构建。相较于 v2 版本,v2.1 增加了下表中的数据:
Dataset | Domain | Dataset | Domain |
---|---|---|---|
slimpajama C4 | Web | Llama-3-Magpie-Pro-1M-v0.1 | Align |
dolma v1.6 (reddit only) | Forums | Magpie-Pro-MT-300K-v0.1 | Align |
glaive-code-assistant-v3 | Code | Magpie-Air-MT-300K-v0.1 | Align |
m-a-p_Code-Feedback | Code | Magpie-Qwen2-Pro-1M-v0.1 | Align |
cosmopedia-v0.1 | Synthetic | Magpie-Phi3-Pro-300K-Filtered-v1 | Align |
SystemChat-2.0 | Instruct | Magpie-Gemma2-Pro-200K-Filtered-v0.1 | Align |
Tess-v1.5 | Instruct | ||
UltraInteract_sft | Instruct |
脚注:
- 我们仅添加了 dolma v1.6 中的 reddit 数据集
- DM_math 作为 The Pile 的一部分存在于 World v2 中
- 表示该数据的原始仓库链接已失效,但 RWKV 数据集仍在使用这部分数据
World v3 数据集
World v3 数据集基于 World v2.1 数据集构建,更加全面,在覆盖领域、数据量和质量上都有显著提升。
新增数据如下表所示:
Dataset | Domain | Dataset | Domain |
---|---|---|---|
REMOVED slimpajama parts | Web | StarCoder | Code |
dclm-baseline-10-of-10 | Web | python-edu | Code |
ccnews | Web | cosmopedia-v0.2 | Synthetic |
fineweb-edu | Web Edu | WebInstructSub | Forums |
TemplateGSM | Math | Buzz-v1.2 | Instruct |
open-web-math | Math | SKGInstruct | Instruct |
algebraic-stack | Math | FLAN | Instruct |
脚注:
- 我们从 World v3 的语料库中移除了 SlimPajama 的 CC 和 C4 部分。
- 对于 DCLM-baseline,我们仅保留了 global-shard_10_of_10。
- 对于 StarCoder,我们使用了全部的数据集,而非筛选 10 星以上的数据集。
World v3 数据集更加全面,覆盖领域更广的同时数据量更大,质量也更高。
World v3 数据集的具体数据类型和数据量配比:
类别 | Token 数(B) |
---|---|
网络(Web) | 1945.2 |
图书(Books) | 337.2 |
代码(Code) | 258.4 |
科学与维基(Science & Wiki) | 222.7 |
小说(Fiction) | 192.6 |
聊天、问答与指令(Chat & QA & Instruction) | 110.0 |
数学(Math) | 32.3 |
法律与政府(Law & Government) | 19.0 |
诗歌与歌词(Poetry & Lyrics) | 1.7 |
总计 | 3119.2(3.1T tokens) |
这份文档对您有帮助吗?
意见反馈(可选)
联系方式(可选)