专栏名称: Hugging Face
The AI community building the future.
目录
相关文章推荐
大数据文摘  ·  刚刚,「诺奖风向标」2025年斯隆奖出炉:2 ... ·  5 天前  
数据派THU  ·  EvalPlanner:基于“计划-执行”双 ... ·  3 天前  
数据派THU  ·  【ICLR2025】SAMREFINER:驯 ... ·  3 天前  
数据派THU  ·  数据派志愿者招募 | 寻找最志同道合的你! ·  3 天前  
CDA数据分析师  ·  【干货】2小时用AI完成的SQL教程也太赞了 ... ·  5 天前  
51好读  ›  专栏  ›  Hugging Face

社区供稿 | 智源研究院发布中文高质量数据集 CCI3.0-HQ 技术报告: 全面解析数据集,助力基础模型中文能力提升

Hugging Face  · 公众号  ·  · 2024-11-27 10:30

正文

摘要


近年来,自然语言基础模型(LLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前英文开源语料的质量过滤已经从基础的规则方法转向了模型驱动的方法。然而,中文开源语料相对稀缺,同时针对中文网络数据进行质量分类提升的研究较少,导致数据质量尚未达到理想水平,进而影响模型中文性能。


为解决以上问题,进一步缓解中文预训练语料规模和质量上的差距,2024年9月20日,智源研究院发布并开源了中文预训练数据集CCI3.0和高质量子集CCI3.0-HQ。2024年10月25日,智源研究院发布中文高质量预训练数据集CCI3.0-HQ技术报告,全面解析数据集的构建过程。


我们的主要贡献总结如下:


  • 我们发布CCI3.0-HQ,这是一个突破性的500GB中文预训练数据集,采用了先进的混合质量过滤方法,显著提升了数据完整性。
  • 我们进行严格的实验评估,结果表明CCI3.0-HQ在性能上显著优于原版CCI3.0数据集和其他主流开源中文语料库,从而建立了新的性能基准。
  • 我们推出并开源CCI3-HQ分类器,这是一种先进的质量分类工具,大幅改进大语言模型训练中的数据选择流程。


数据集下载地址:

https://hf.co/datasets/BAAI/CCI3-HQ

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3-HQ

https://data.baai.ac.cn/details/BAAI-CCI3-HQ

质量分类器下载地址:

https://hf.co/BAAI/CCI3-HQ-Classifier

技术报告地址:

https://arxiv.org/abs/2410.18505



1. CCI3.0-HQ 构建


图1. CCI3.0-HQ数据集构建流程概述

如图1所示,数据处理流程包括两个主要阶段: 基础处理和高质量处理 。原始数据涵盖了丰富的中文语料来源,包括新闻、社交媒体和博客,从而增强了数据集的覆盖面和代表性。经过 基础处理 ,我们获得CCI3.0数据集。接着通过基于模型的高质量处理进一步优化,最终得到CCI3.0-HQ数据集。CCI3.0-HQ数据集的关键是 高质量处理 阶段,具体由高质量样本自动标注和高质量分类器训练两个主要步骤组成。

1.1 高质量样本自动标注

高质量处理的主要关注点是在预训练的背景下精确定义“高质量”。在探索和比较了2种领先方法后,我们采用了FineWeb-edu方法来定义高质量样本,专注于筛选中文的高质量教育内容,以提升中文语料的整体质量。在质量标准确定后,接下来的挑战是高效地构建数大量符合标准的样本。为此,我们使用本地部署的大尺寸开源模型对CCI3.0数据集中随机抽取的145,000个网页样本进行评分,评分范围为0(非教育性)到5(高度教育性)。最后,我们对部分标注结果进行了人工和GPT-4评估,达到了超过80%的一致率。

1.2 高质量分类器训练

我们通过上面的自动化流程累计了数十万个标注样本,随后训练了一个较小的质量分类模型以实现大规模高效标注。该方法在确保正确识别高质量样本的同时显著降低了成本,从而以实用的资源投入完成数据集的全面标注。质量分类模型由BGE-M3模型和扩展分类头组成。基于模型调优实验,训练期间,嵌入层和编码器层保持冻结,以专注于分类头的优化。最后,将模型转换为二元分类器,使用评分阈值为3,并将该分类器应用于约15亿样本,该过程耗费9700小时的A100 GPU算力。

2. CCI3.0-HQ 实验

2.1模型预训练实验

我们使用相同的模型架构并且数据集总量100B进行从头预训练,主要设计了两项主要实验来评估不同数据集性能:

  • 混合数据集实验 :该数据集包括60%的英文、10%的代码和30%的中文内容。在英文部分,我们使用了FineWeb-edu数据集;代码数据则来自 StarCoder。
  • 中文数据集实验 :该实验使用了100%中文内容的数据集,对比目前开源规模较大的数据集比如Wanjuan-v1、SkyPile、CCI3.0和CCI3.0-HQ数据集。

实验结果如表1所示:在混合数据集实验和中文数据集实验中,CCI3.0-HQ数据集在大多数指标上表现优异,显著超过了其他数据集。与CCI3.0数据集相比的显著提升也证明了对中文预训练语料进行高质量过滤的重要性。另外如图2所示,在模型训练过程进行阶段评测,CCI3.0-HQ数据集表现稳定胜出。

表1. 混合数据集实验和中文数据集实验中数据集对模型性能的影响对比

图2. 训练过程中不同数据集对模型性能的影响对比






请到「今天看啥」查看全文