原文:https://zhuanlan.zhihu.com/p/703825827
背景与目标
最终目标是在
LLAMA3
模型的基础上进行继续训练与 SFT,但
LLAMA3
的数据与配比方案并未公开,因此期望从其他方案中获得配比的思路,从而确保预训练与 SFT 不会严重影响原本的模型效果。
当前一种潜在的不伤害原模型的方法是,直接继续训练/SFT,随后通过
参数合并Merge
来保留原始效果。
首先需要调研现有的方案,思路为:
-
-
-
更新日期:2024.07.29
-
前文
:天晴:论文解读:如何自动选择 SFT 数据
-
https://zhuanlan.zhihu.com/p/690779419
https://zhuanlan.zhihu.com/p/713670161
LLAMA 和 Qwen 技术报告
最新的Qwen2和LLAMA3.1终于是公布了很多数据细节,当然也包括数据配比问题。
Qwen2
预训练数据增强
Qwen2 的预训练数据分为
启发式方法过滤
和
Qwen 模型过滤
。虽然实现细节未阐明,但根据其他工作,启发式方法可能类似 C4 数据的过滤方法。Qwen 模型过滤则可能是由 GPT 对模型进行 1-5 的质量分数打标,随后对 Qwen 的一个小版本(如 0.5B)进行微调,使其只输出 1-5 的分数 token。
数据扩充
Qwen2 包含了代码、数学、多模态数据,也包括多语数据。最关心的
数据分布
依然是含糊的,目标是让数据分布与人类相似的学习一致。通过实验,对不同来源和领域划分方法进行混合。
数据规模
Qwen1.5 使用了 3T 数据,而 Qwen2 扩充至 7T 数据。团队还尝试继续放宽数据质量筛选阈值,扩充到 12T 数据。然而,在打榜精度上,7T 和 12T 的训练并无显著差异。
长上下文训练
Qwen2 的长上下文训练分为几个阶段:
-
-
-
使用 RoPE 位置编码,将频率从 1 万增加到 100 万(频率越高,能容纳的上下文越长)
此外,Qwen2 还使用了
YARN
和
Dual Chunk Attention
机制,支持 131k 上下文(实践上,是对长上下文进行Chunk切分,随后在chunk内与chunk间进行相对位置信息的捕捉)。
后训练
核心是使用了大量非人工合成数据,值得关注的趋势是:
-
人机协作数据打标
:使用 InsTag 模型生成标签,人工改进表述。依据标签多样性、语义性、复杂度、意图完整性评估筛选出具有代表性的数据;借助一些LLM数据演进生成的工作,例如Self-Evolution,进行数据合成;最后也包括人工标注。
-
自动数据合成
:例如,使用
Rejection Sampling
进行数学任务推导,或者通过
Execution Feedback
对代码任务进行执行筛选。随后是SFT常见的Data Repurposing,为各种任务,借助LLM基于某些源数据,来构造任务数据。对于Qwen它还做了安全审查,当然这里我可能并不需要。
LLAMA3.1
数据清洗与质量过滤
LLAMA3.1 对数据进行了清洗和过滤,包括:
-
-
HTML 数据抽取(发现在预训练数据里包含markdown是有害的)
-
去重(URL、MinHash for Docs、ccNet for Lines会删除导航栏cookie警告以及一些高质量数据)
-
启发式过滤(n-gram 去重、脏词过滤、KL 散度过滤等)
数据质量过滤:fasttext判断docs与Wikipedia的相关,distilRoberta分类器由LLAMA2打质量标签训练去预测质量分数。distilRoberta分类器还被训练去判断代码和数学推理的数据。
相较于前代版本,有了更多的多模态数据,唯独中文的不多。
数据配比
基于知识分类和Scaling Law实验来测试配比的合理性。
知识分类:分类器划分预训练数据为领域知识数据,例如按着 艺术、娱乐...分类
Scaling Law实验确定数据配比:基于同一个数据配比,训练若干个不同的小模型(从40M到16B),观察其scaling曲线。(我猜是人工设置的配比候选),最终结构:50%通用、25%数学以及推理、17%代码、8%多语。最终通用是什么样子也不清楚
左图为浮点计算量与Loss的scaling law曲线,右图是loss与accuracy之间的曲线。有趣的一点是,loss与acc的关系,不是一个线性的
长上下文数据与退火训练
长上下文数据:基于两个标准来判断是否应该增加一个上下文长度:1) 在短上下文下性能恢复 2) 已经可以完美解决某长度下的 大海捞针。所以现在的长上下文,基本是照着大海捞针任务设计的,对于真正其他的长上下文需求,考虑的并不充分。
退火数据:基于高质量代码和 数学数据在预训练尾部做退火(可以提升GSM8k 24%,Math 6.4%)。
一个重要的发现是,退火训练可以评判小规模领域数据的价值。70%数据由原始配比方案获得,30%由需要测试的目标数据获得,在40B Tokens的退火训练中,将一个训练到50%的8B模型,学习率从开始降低至0,随后进行测评或者观察Loss。基于退火法测试小数据集比基于Scaling law实验更有效。
SFT 数据配比
LLAMA 和 Qwen 的 SFT 数据处理技术非常相似,包括:
-
Rejection Sampling
:对于一个问题使用最新 checkpoints 生成多个输出,保留最终答案可行的输出。
-
数据清洗
:避免过度使用表情、感叹、Sorry、道歉,这个很有启发,现在的LLM一般跟他意见不符,都是直接道歉
-
话题分类
:(微调LLAMA 8B来作话题分类器,分桶这些数据到比较粗粒度和细粒度的簇,例如粗粒度的数学推理和细粒度的三角几何)
-
质量打分
:同时使用Reward模型(将分数分布在上四分位的数据视为高质量)和LLAMA模型信号来得到质量分数(通用数据有三个维度,精准度,指令遵循,语调与表达;代码数据两个维度,代码Bug识别和用户意图),这两个模型有很大分歧,以or关系结合二者可以达到很高的召回率。
-
难度打分
:基本想法是优先处理对模型而言更复杂的数据,使用InsTag(Qwen也用到了)对数据打意图标签,意图越多复杂性越高,以及LLAMA的评分(与质量打分一致的方法)
-
语义去重
:Roberta Embedding聚类,每个簇内的数据以质量和难度的乘积进行排序,保留阈值以上的。
-
-
代码合成数据
:1M规模,如果直接用LLAMA3 405B生成的数据是没有帮助的,通过Execution Feedback(也就是执行一遍,并得到执行结果,将这个错误和反馈结合进行训练,使得模型可以汲取教训)。具体为编程问题描述生成-->问题解决(让LLAMA3跑一遍,生成带有解释的解决方案最好)-->正确性分析(如果是错误的解决方案会伤害SFT,所以需要鉴别是否代码是正确的,包括 用编译器和代码分析工具Linter来作语法检查,以及通过LLM生成单元测试情况)-->错误反馈和迭代自我矫正(当前面出错后,把原始问题、错误的解法、反馈 告诉LLM来进行修复,当单元测试出错时,模型可以选择修复解决方法或者是单元测试,约20%是通过反馈矫正来变为正确的)-->迭代式微调(微调、生成数据、再微调,螺旋提升)
-
编程语言翻译的数据合成
:Python C++和其他PHP Type Script等语言进行翻译,只要通过单元测试和语法检测的翻译保留。
-
反向翻译的数据合成
:考虑到执行反馈的信息量对于评价质量来说是不够的,因此基于代码进行对话生成,补充代码解释、生成、文档、Debug数据。随后用这些数据让LLM进行代码生成,用原始代码作为基准,让LLM进行生成代码质量的评估。
-
长上下文数据合成
:QA:将预训练里面的超长文档切分成8k的块,生成QA pair。Summarization:对8k的上下文进行总结后,再对总结进行总结,得到QA数据。Long Context Code Reasoning:找到python最常import引用的代码函数,删除其中的一个关键文件,提示模型去识别哪些文件依赖于这个丢失的文件,并生成丢失文件的代码。如果SFT模型在长语境表现良好,DPO只使用短文本,不会伤害模型的长上下文能力。
-
工具使用数据合成
:包括搜索引擎(Brave Search)、Python解释器、数学计算引擎(Wolfram Alpha API)
前代版本
:LLAMA2共使用2T数据
语言分布:
LLAMA3使用了15T数据,并未给出更详细的信息
只有LLAMA1介绍了数据配比:
但SFT方案没有给出
现有公开的模型方案
1. 小模型 - MiniCPM
预训练数据配比:
预训练退火阶段SFT数据配比:
SFT阶段:
使用了和退火阶段类似的SFT数据(不同的是将预训练数据、高质量的无标注数据例如wiki去除,只留高质量有标标注数据,即sft数据)
2. 小模型 - Microsoft/Phi-3-mini-4k-instruct
未给出更多详细的数据信息。
3. 大模型 - PALM2
除了部分中文的语言配比外,更多的数据信息未公开。
PALM1 版本
PALM1 版本给出了具体的代码和语言配比。
PALM1具体的代码配比
PALM1语言配比
缺少具体的Finetune方案,只介绍了PALM-Code版本用了60%-python(ExtraPythonData)和30%多代码语言(预训练中相同的源)与10%自然语言,共计7.75B
4. 大模型 - Qwen
Qwen1 只透露了数据源,未给出具体的配比。Qwen2 也未公开数据配比。
5. 大模型 - Baichuan
Baichuan2 的数据配比按领域划分,但未公开 SFT 配比信息。
成熟的工作在后期对数据配比的讨论越来越少,逐渐变成了商业机密。
探索性工作
现在一般折腾做SFT模型的工作,都是找一堆看着质量还可以的数据源,随后一股脑全扔进去,也不考虑配比啥的
1. Chinese-LLAMA
Chinese-LLAMA 在 LLAMA 的基础上进行了中文微调,包含以下数据源:
-
0_english_LongQLoRA-SFT-39k.jsonl:506.50MB
-
0_english_Open-Platypus_25k.jsonl:31.91MB
-
1_0_firefly_chinese_common_task_1649k.jsonl:1.18GB
-
1_chengyu_0.1k.jsonl:56.06KB
-
1_coig_human_value_multi_choice_0.1k.jsonl:69.24KB
-
1_coig_pc_core_sample_3k.jsonl:3.94MB
-
1_poem_0.05k.jsonl:18.69KB
-
1_trad-multi-choice_0.1k.jsonl:35.81KB
-
1_translate_classical_chinese_0.7k.jsonl:473.36KB
-
-
1_zhihu_expansion_0.17k.jsonl:408.97KB
-
1_zhihu_score9_2.5k.jsonl:6.66MB
-
2_sharegpt_common_zh_76k.jsonl:482.59MB
-
2_sharegpt_computer_zh_20k.jsonl:81.02MB
-
2_sharegpt_continue_zh_1.9k.jsonl:18.88MB
-
3_logi-qa_0.4k.jsonl:482.07KB
-
3_ruozhiba_ruozhiba2_0.22k.jsonl:205.56KB
-
sft_zh_with_all.jsonl:1.98GB
链接:https://modelscope.cn/datasets/baicai003/Llama3-Chinese-dataset/files
2. Rhea-72b-v0.5 (Huggingface Leaderboard SFT 榜单第一)
SFT 数据
Rhea 的 SFT 数据包含 datasets_enconv_4m,分为两部分。注意,如果在 Huggingface 上找不到相关数据集,可能是私有数据。
基座模型使用
bacusai/Smaug-72B-v0.1
链接:(https://huggingface.co/davidkim205/Rhea-72b-v0.5
数据来源
-
stack-exchange-preferences
-
-
-
-
-
-
-
-
OpenHermes2.5-dpo-binarized-alpha
-
distilabel-math-preference-dpo
-
-
-
distilabel-capybara-dpo-7k-binarized
-
-
随机挑选的 SFT 数据集:
3. abacusai/Smaug-72B-v0.1 (Huggingface SFT 榜单第 3 名)
基于 Qwen-72B 和
moreh/MoMo-72B-lora-1.8.7-DPO
进行的微调。
链接:https://huggingface.co/abacusai/Smaug-72B-v0.1
核心在于 DPO 新方法,SFT 数据未过多提及。
4. ibivibiv/alpaca-dragon-72b-v1 与 ibivibiv/strix-rufipes-70b (Huggingface SFT 榜单第 4 名)
未公开 SFT 数据。
5. saltlux/luxia-21.4b-alignment-v1.2 (Huggingface SFT 榜单第 5 名)
SFT 数据可以在 Huggingface 上找到,具体为:
-
-
-
in-house generated data utilizing Metamath 395k
6. fblgit/UNA-ThePitbull-21.4B-v2
代码微调模型,SFT 数据使用了
Replete-AI/code_bagel_hermes-2.5
,共 2.83M。
7. Ziya
国产 SFT 模型,未开源 SFT 数据。
8. 链家 BELLE
中文 SFT 模型,参考 Stanford Alpaca 生成的 1M+0.5M 中文数据,中文之光,相较于 Ziya 不开源要好得多。
具体为:
https://github.com/LianjiaTech/BELLE/blob/main/data/1.5M/zh_seed_tasks.json BelleGroup/train_0.5M_CN 519k
BelleGroup/train_1M_CN 917k
10M 版本的还并未完善。
链接:
https://github.com/LianjiaTech/BELLE
链家收集的其他 SFT 数据源:
中文:
https://github.com/LianjiaTech/BELLE/blob/main/data/awesome_open_instruct_data_for_chinese.md
具体为:
-
(JosephusCheung/GuanacoDataset) | 534K
-
-
-
-
-
-
-
-
-
-