故赛题的难点在于如何充分利用不同置信度的训练数据集及超长的上下文信息、提取高噪声数据中的有效增益信息。针对这两个难点,团队利用嫁接学习[5]的思想分别提出Grafting-Learning For DataSet技术和Grafting-Learning For LongText技术,将BERT-Like模型的复杂文本语义匹配能力嫁接到LLM中,提高样本置信度。同时,团队提出的Automatic RAG & Feature Engineering技术能够自动召回辅助信息,进一步去除超大规模无标注数据集中的高噪声。算法框架如下图2所示:
Grafting-Learning For DataSet:多个不同数据集之间的标注规则存在差异,由于本次存在规则标注的数据集,其标注质量较低但数据集规模极大,巧妙利用该数据集能够带来较大的指标提升。我们提出了Grafting-Learning For DataSet技术,在规则数据集上对BERT进行微调,并将其最后一层隐状态作为人工标注数据集的额外特征,用于训练第二个BERT模型。这种方法巧妙地嫁接了规则数据集的有效正标签信息。同时,我们在消融实验下发现嫁接学习的方式比普通迁移学习(即在规则标注数据集微调后的BERT模型再用人工标注数据集微调)更具鲁棒性。由于两类数据集的标签分布差异较大,普通迁移学习甚至会带来负收益,而嫁接学习能够有效保留有益信息、摒除无益信息。
Grafting-Learning For LongText:长文本训练和推理会显著增加时间和显存消耗。为缓解该现象,团队提出了Grafting-Learning For LongText技术,将多来源的文本分别经过不同的BERT进行有监督微调,最终每条数据都将得到多个不同来源的模型预测概率,此时噪声文本中的有效信息增益都被BERT模型提取完成,再将预测概率输入到ChatGLM中,即可用较短的文本和BERT预测概率进行最终的模型判断。此方法能够有效避免在Attention计算时由于文本过长导致时间开销平方级爆炸增长,将其切割后利用小模型BERT提纯噪声,只保留过滤后的BERT预测概率用以做最终判断。同时,由于采用了多个BERT模型提纯去噪,高噪声对最终结果的影响进一步降低,模型输出结果更加置信。
[1] Wang, G., Li, W., Ourselin, S., & Vercauteren, T. (2019). Automatic brain tumor segmentation using convolutional neural networks with test-time augmentation. In Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries: 4th International Workshop, BrainLes 2018, Held in Conjunction with MICCAI 2018, Granada, Spain, September 16, 2018, Revised Selected Papers, Part II 4 (pp. 61–72). Springer.[2] Rasley, J., Rajbhandari, S., Ruwase, O., et al. (2020). Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 3505-3506).[3] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.[4] Dettmers, T., Pagnoni, A., Holtzman, A., & Zettlemoyer, L. (2024). Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, 36.[5] Jiangli Club. (n.d.). 嫁接学习的提出与具体用例. Retrieved from http://jiangliclub.com/article?article_id=72.[6] Meng, R., Liu, Y., Joty, S. R., Xiong, C., Zhou, Y., & Yavuz, S. (2024). SFR-Embedding-Mistral: Enhance Text Retrieval with Transfer Learning. Salesforce AI Research Blog. Retrieved from https://blog.salesforceairesearch.com/sfr-embedded-mistral/.[7] Zhang, F., Shi, S., Zhu, Y., Chen, B., Cen, Y., Yu, J.,... & Tang, J. (2024). OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining. arXiv preprint arXiv:2402.15810.