RWKV 的训练数据集

RWKV 使用 World 系列训练数据集,包含全球一百多种语言。我们正在持续迭代 World 系列训练数据集,不断地提升数据集的规模和质量,使 RWKV 模型拥有强劲的多语言能力。

此章节简要介绍 RWKV World 系列数据集的数据组成、数据来源、数据量等信息。

RWKV 数据集概况

目前 World 数据集共有以下版本:

版本号总数据量对应的 RWKV 基底模型
World v1约 0.59T tokensRWKV-4 系列(已淘汰)
World v2约 1.1T tokensRWKV-5 系列(已淘汰)
World v2.1约 1.42T tokensRWKV-6 系列
World v2.8从 World v3 中随机采样约 1T tokensRWKV-7-World 0.1B
World v2.9从 World v3 中随机采样约 2T tokensRWKV-7-World 0.4B
World v3约 3.1T tokensRWKV-6-World 7B v3,RWKV-7-World 1.5B/2.9B
World v3.5约 5.16T tokensRWKV7-G1 1.5B/2.9B
World v3.7收集整理中RWKV7-G1 7B/14B 和更大参数模型

RWKV7-G1 0.1B 从 World v3.5 数据集中随机采样 1T tokens 训练

RWKV7-G1 0.4B 从 World v3.5 数据集中随机采样 2T tokens 训练

各版本数据集的细节

秉持着“开源开放”的精神,我们在 RWKV 的架构论文中开源了 World 系列数据集的组成和来源。

前往论文查看:

  • World v2 的详细介绍可以在 RWKV-5/6 论文Training Dataset Details 板块中找到。
  • World v2.1/v3 的详细介绍可以在 RWKV-7 论文Training Dataset Details 板块中找到。

以下内容摘录于论文:

World v2 数据集

RWKV-6 的 v2 训练数据集涉及多个领域,具体包含以下内容:

DatasetDomainDatasetDomain
Wikipediaa^aEncyclopediaSlimPajamaWeb
peS2oAcademiaBigPatentPatents
Pile of LawLegal, AdministrativeStarCoderb^bCode
OSCAR23.01c^cMultilingual WebTED2020Transcripts: TED, TEDx
PhilPapersAcademia: PhilosophyNIH-ExPORTERGrants: NIH
EuroParlMultilingual LegalEnron-EmailsEmails
Ubuntu IRCChatHackerNewsForums
OpenWebText2WebGutenberg PG-19Books
Books3BooksOpenSubtitlesSubtitles
YTSubtitlesSubtitlesao3_skylionStories
honeyfeed-3600Storiesscribble-17kStories
syosetu711ko^oStories (Japanese)marianna13/fanficsStories
marianna13/gamedevForumsmarianna13/ia-booksBooks
marianna13/libgenTextbooks, Booksmarianna13/research_gateAcademia
marianna13/superuserForumsmarianna13/the-eyeBooks
marianna13/vault_textBooksmarianna13/random_quorao^oForums
marianna13/zlibBooksminipileVarious
tatoebaMultilingual Translationspoetry-foundationPoetry
proof-pileAcademia: Mathreddit-mathForums: Math
sodaDialoguesong_lyricsLyrics
TinyStoriesStorieswalkthroughs2020Game Walkthroughs
wikihow-qa-16kHow-ToAlpacaVarious
camel-ai/mathMathcamel-ai/codeCode
camel-ai/physicsPhysicscamel-ai/chemistryChemistry
camel-ai/ai_societyJob Rolescamel-ai/biologyBiology
DollyVariousEvol-InstructVarious
gpt4allCodeGuanacoVarious Multilingual
LaMiniVariousoasst1Multilingual Conversations
ShareGPTConversationsUltraChatConversations
BELLE 10M ChineseVarious Chinese

脚注:

  • a^a 对于维基百科(Wikipedia),我们收集了截至 2023 年 4 月 1 日的所有语言版本,并对某些语言进行了随机子采样。
  • b^b 对于 StarCoder,我们仅使用了至少有 10 颗星的数据集。
  • c^c 对于 OSCAR23.01,我们仅使用非英语语言的部分,并对某些语言进行了随机子采样。
  • o^o 表示该数据的原始仓库链接已失效,但 RWKV 数据集仍在使用这部分数据

World v2.1 数据集

World v2.1 数据集基于 World v2 构建。相较于 v2 版本,v2.1 增加了下表中的数据:

脚注:

  • a^a 我们仅添加了 dolma v1.6 中的 reddit 数据集
  • b^b DM_math 作为 The Pile 的一部分存在于 World v2 中
  • o^o 表示该数据的原始仓库链接已失效,但 RWKV 数据集仍在使用这部分数据

World v3 数据集

World v3 数据集基于 World v2.1 数据集构建,更加全面,在覆盖领域、数据量和质量上都有显著提升。

新增数据如下表所示:

脚注:

  • a^a 我们从 World v3 的语料库中移除了 SlimPajama 的 CC 和 C4 部分。
  • b^b 对于 DCLM-baseline,我们仅保留了 global-shard_10_of_10。
  • c^c 对于 StarCoder,我们使用了全部的数据集,而非筛选 10 星以上的数据集。

World v3 数据集更加全面,覆盖领域更广的同时数据量更大,质量也更高。

World v3 数据集的具体数据类型和数据量配比

类别Token 数(B)
网络(Web)1945.2
图书(Books)337.2
代码(Code)258.4
科学与维基(Science & Wiki)222.7
小说(Fiction)192.6
聊天、问答与指令(Chat & QA & Instruction)110.0
数学(Math)32.3
法律与政府(Law & Government)19.0
诗歌与歌词(Poetry & Lyrics)1.7
总计3119.2(3.1T tokens)
这份文档对您有帮助吗?

意见反馈(可选)

联系方式(可选)

On this page