专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
新周刊  ·  东北人的第二故乡,已经不是三亚了 ·  昨天  
广西市场监管  ·  一周市局动态(下) ·  2 天前  
广西市场监管  ·  一周市局动态(下) ·  2 天前  
51好读  ›  专栏  ›  GitHubStore

数据飞轮:为大型语言模型(LLMs)提供高质量、大量数据的搜索、选择和合成

GitHubStore  · 公众号  ·  · 2024-09-09 08:37

正文

项目简介


我们致力于提供最佳参考,用于搜索、选择和合成高质量、大规模的数据,以便对LLMs进行后续训练

此仓库中有三项贡献:

  1. 数据生成:我们提供两个重要领域的数据生成过程:指令遵循和函数调用。

  2. 数据集编目:我们收集并编目了一组高质量的数据集,适用于LLMs在遵循指令、编程和数学领域的训练后使用。我们提供了对数据集的质量检查。

  3. 数据集整理:根据质量检查,我们精心整理了一个新的数据集用于LLMs的后续训练。这些数据集被仔细收集和评估,以确保高质量和相关性,适用于后续训练。


免责声明:尽管我们提供了以下的许可信息,但这些信息是从原始存储库获取的。然而,我们也注意到一些数据集虽然声称是开放的,但实际上使用了商业模型。因此,请在使用它们之前仔细检查,特别是如果你打算将它们用于商业用途或其他类似目的。

下载

您可以直接从 Hugging Face Hub 下载数据集。有以下两个版本:

  1. 飞轮-v1:一个小型且高度精选的数据集。

  2. 飞轮-v2:一个大型且多样化的数据集。(推荐)


数据生成

我们提供了两个重要领域的数据生成过程:指令遵循和函数调用。

质量检查

  • 领域:我们仅关注以下任务:遵循指令、编码和数学。除了英语数据集外,不考虑其他数据集。

  • 数据来源:仅保留 GPT-4 生成的数据。丢弃低质量的数据来源(gpt-3.5-turbo)。

  • 热门数据集,下载 > 1K

  • 准确度(%):在指令调整数据集上随机抽取 20 个样本,在其他领域上抽取 10 个样本。手动检查质量,并提供质量信号=x/20

  • 相关性评分(1-5):

    • 5: 直接对应于[IFEval*,MTBench,AGIEval*,AlpacaEval,... ]之一(过拟合)

    • 4: 通常遵循指令遵循格式和 GPT-4 / 人类级别响应。

    • 3: 大多数遵循指令格式并给出正确的回答。

    • 2: 存在重大缺陷(例如,无关),但可能有用

    • 1: 低质量或潜在有害影响



项目链接

https://github.com/shizhediao/Post-Training-Data-Flywheel

扫码







请到「今天看啥」查看全文