在上一篇文章「
社区供稿 | Unsloth 微调 Llama3-8B,提速 44.35%,节省 42.58% 显存,最少仅需 7.75GB
」中,我们介绍了Unsloth,这是一个大模型训练加速和显存高效的训练框架,我们已将其整合到Firefly训练框架中,并且对Llama3-8B的训练进行了测试,Unsloth可大幅提升训练速度和减少显存占用。
遗憾的是,Unsloth目前并不支持Qwen2模型结构,该需求在Unsloth的issue中也被频繁提及,但官方在短期内暂时没有支持Qwen2的计划,更多的是建议用户对Qwen2的权重进行Llama化,然后采用Llama的训练方式。
但对Qwen2的权重进行Llama化后,模型性能有显著的下降。注:
本文提及
的Qwen2指的是模型结构,而非模型权重,Qwen1.5模型属于Qwen2模型结构,Qwen2模型权重尚未开源
。
Qwen系列模型
具有非常大的用户基数,
目前开源的Qwen1.5模型可以视为Qwen2的preview版本,它在中英文任务上具有非常优秀的表现,一度取得中英文开源模型的SOTA,且后续还将继续开源正式版本的Qwen2模型。
基于上述现状,Firefly项目组尝试对Unsloth进行扩展,使其能够支持Qwen2模型进行训练,并且我们取得了不错的效果。在训练测试中,
Qwen1.5-7B
最少仅需8.43GB显存
,这意味着我们可以在一张1080Ti上训练
Qwen1.5-7B
。
开启Unsloth后,
Qwen1.5-7B
的训练速度可提升47.32%,
训练时间可减少32.12%,显存占用可减少39.13%
。我们在🤗Open LLM Leaderboard中验证了模型和训练方法的有效性,更多详情
见第三节。
Firefly项目
链接:
https://github.com/yangjianxin1/Firefly
Unsloth x Qwen2项目链接:
https://github.com/yangjianxin1/unsloth
模型权重:
https://hf.co/YeungNLP/firefly-qwen1.5-en-7b-unsloth
https://hf.co/YeungNLP/firefly-qwen1.5-en-7b-dpo-v0.1-unsloth
我们对Unsloth进行了扩展,使其能够支持对Qwen2模型进行训练,扩展后的代码仓库如下:
https://github.com/yangjianxin1/unsloth
使用Unsloth训练Qwen2,需要更新或者安装如下python包:
pip install git+https://github.com/yangjianxin1/unsloth.git
pip install bitsandbytes==0.43.1
pip install transformers==4.37
pip install peft==0.10.0
pip install torch==2.2.2
pip install xformers==0.0.25.post1
git
clone https://github.com/yangjianxin1/Firefly.git
在Firefly中启动Unsloth训练Qwen2,仅需在原来的训练配置文件中将use_unsloth设为true即可,
use_unsloth默认为False
。
使用Firefly对Qwen1.5-7B进行SFT的启动命令:
python train.py --train_args_file train_args/sft/qlora/qwen1.5-7b-sft-qlora.json
使用Firefly对Qwen1.5-7B进行DPO的启动命令:
python train.py --train_args_file train_args/dpo/qlora/qwen1.5-7b-dpo-qlora.json
值得注意的是,开源版本的Unsloth当前仅支持单机单卡训练。
我们首先测试了Unsloth对Qwen2的训练增益,
在一张V100上对Qwen1.5-7B进行QLoRA训练,使用相同的数据集训练20步,开启gradient_checkpointing,每条数据均padding至max_seq_length,在所有linear层均插入adapter,由于V100不支持Flash Attention,所以
本
测试未开启
Flash Attention
。
Unsloth所带来的训练增益如下表所示。
结合QLoRA与Unsloth训练Qwen1.5-7B,
最少仅需8.43GB显存
,
开启Unsloth后,
Qwe
n1.5-7B
的训练速度可提升47.32%,
训练时间可减少32.12%,显存占用可减少39.13%
。
为了进一步验证Unsloth x Qwen2训练的有效性,我们使用Unsloth和QLoRA对
Qwen1.5-7B
进行了SFT和DPO两阶段训练。
整个训练流程仅使用一张V100
,在所有Linear层都添加adapter以提升训练效果。
两阶段均使用英文数据进行训练
。我们与Qwen1.5官方的对话模板保持一致:
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
hello, who are you?<|im_end|>
<|im_start|>assistant
I am a AI program developed by Firefly<|im_end|>
在SFT阶段,
实验参数设置如下:
num_epochs: 1
learning_rate: 2e-4
total_train_batch_size: 32
max_seq_length: 2048
optimizer: paged_adamw_32bit
lr_scheduler_type: constant_with_warmup
warmup_steps: 600
lora_rank: 64
lora_alpha: 16
lora_dropout: 0.05
gradient_checkpointing: true
fp16: true
在DPO阶段,实验设置如下:
num_epochs: 1
learning_rate: 2e-4
total_train_batch_size: 32
max_seq_length: 2048
max_prompt_length: 500
optimizer: paged_adamw_32bit
lr_scheduler_type: constant_with_warmup
warmup_steps: 100
lora_rank: 64
lora_alpha: 16
lora_dropout