大语言模型(LLMs)在自然语言理解、文本摘要和机器翻译等多种任务中取得了显著成功。然而,LLMs 的通用特性往往限制了它们在需要专门知识的领域特定应用中的有效性,如医疗、化学或法律分析等。为了解决这一问题,研究人员探索了多种方法,通过将领域特定知识注入 LLMs 来提升其性能。
在本综述中,我们提供了这些方法的全面概述,并将其归纳为四种主要方法:动态知识注入、静态知识嵌入、模块化适配器和提示优化
。每种方法都有独特的机制,可以为 LLMs 注入领域专业知识,在灵活性、可扩展性和效率之间取得平衡。我们讨论了这些方法如何使 LLMs 能够处理领域特定任务,比较它们的优缺点,评估领域特定的 LLMs 与通用 LLMs 的表现,并强调该新兴领域中的挑战与机遇。对于希望深入研究该领域的读者,我们还总结了常用的数据集和基准测试。为了让研究人员及时了解最新的研究进展,我们维护了一个开源平台,地址为:
officialrepo.com
,专门用于记录领域特定 LLM 相关的研究。
领域特定知识是指与特定领域或应用相关的专门信息或专业知识,区别于跨多个领域的通用知识。通用知识使模型能够理解广泛的上下文,而领域特定知识对于需要精确、领域特定理解的专业任务至关重要。例如,在科学文本处理 [Bran et al., 2023] 中,模型必须理解复杂的科学术语、概念和方法论,以提供准确且相关的答案。同样,在电子商务搜索 [Zhao et al., 2024a] 中,理解领域特定术语(如产品类别、技术规格或购物俗语)对于提供相关的搜索结果和推荐至关重要。在医疗应用中,LLMs 必须理解医学术语、诊断、治疗方案和药物相互作用。例如,生物医学问答 [Pei et al., 2024] 和医疗报告摘要依赖于整合来自医学文献(如 PubMed [Dernoncourt and Lee, 2017])的知识。
为满足这些需求,研究人员探索了多种将领域特定知识整合到 LLMs 中的方法。本文旨在对这些注入方法进行全面综述。
知识可以根据结构和应用需求以不同形式呈现。例如,知识图谱 [Zhang et al., 2024c] 将信息表示为图中的实体和关系,从而实现结构化推理和推断。这些图谱广泛应用于问答系统和推荐系统等任务中,其中实体之间的关系至关重要。同样,以文本形式存在的知识(如维基百科 [Jeong et al., 2024])提供了大量非结构化信息。
知识也可以以向量空间的形式存储,而非可读文本或图谱格式。例如,软提示调优 [Singhal et al., 2023a] 学习向量形式的有用知识,并将其与原始输入连接,以指导 LLMs 执行特定的下游任务。除了外部表示,知识还可以从模型内部涌现。例如,思维链提示 [Yao et al., 2024] 引入了中间推理步骤,帮助模型将复杂任务分解为可管理的部分。通过显式地推理这些步骤,LLM 可以更有效地利用其内部存储的信息,从而在需要逻辑推理、多步计算或决策的任务中表现更佳。
3 知识注入范式
本节介绍了四种主要的知识注入范式:动态知识注入、静态知识嵌入、适配器和提示优化。这些范式展示了将外部领域特定知识整合到LLMs中的多种机制。我们使用统一的符号(如表1所述)系统地表示这些过程。外部知识K通过修改原始参数θ、引入额外参数ϕ或利用辅助机制整合到LLMs中。
3.1 动态知识注入
动态知识注入定义为首先从外部知识库或知识图谱中检索信息,然后将其与输入结合以供LLMs使用的过程:
该范式提供了快速的推理,因为它消除了额外的检索步骤,并且通常表现更强。然而,它也面临一些挑战,例如更新成本高(每当领域知识变化时都需要微调)以及可扩展性问题,因为嵌入大型或频繁变化的知识库可能计算成本高昂。
为解决静态知识嵌入的高更新成本问题,另一种范式——模块化知识适配器——引入了小型可训练模块,这些模块可以插入基础模型或与其并行运行,以存储领域特定知识,同时节省计算资源。在这种方法中,LLM的原始参数θθ通常保持冻结,以保留模型的通用能力。给定知识数据集KK,适配器参数ϕϕ通过最小化以下目标进行训练:
其中,pp 表示包含隐式领域知识或特定指令的文本提示。提示优化具有显著优势,包括消除对外部领域知识库的依赖并避免训练。然而,它也面临一些挑战,因为设计有效的提示可能既复杂又耗时。此外,长提示可能会减少可用的上下文窗口,从而可能影响模型的效率和性能。
表2:基于训练成本、推理速度和局限性的知识注入范式选择指南动态知识注入在运行时整合外部知识,提供了灵活性和对新信息的适应性,而无需增加训练成本。然而,它需要一个有效的检索模块,推理速度高度依赖检索性能,这可能会减慢整体过程。静态知识嵌入在预训练或微调期间嵌入领域专业知识,需要大规模的领域特定数据和大量的训练资源(如GPU和时间)。虽然它不会产生额外的推理成本,但其局限性在于潜在的灾难性遗忘风险以及无法适应不断变化的信息。模块化适配器作为一种折中方案,允许即插即用的组件以最少的训练数据增强领域特定能力。只需训练少量参数,从而降低了训练成本,且推理速度几乎不受影响。然而,训练数据的质量显著影响该方法的性能。提示优化则完全避免了重新训练,通过精心设计的输入激活已有知识。它对推理速度没有影响,但依赖于大量人工努力来找到最佳提示。该方法在利用新知识方面能力有限,主要激活已有知识。
我们在表2中总结了这些比较,作为实用指南,帮助根据具体任务需求和场景确定最合适的方法。
生物医学领域受益于丰富的专业语料库,如PubMed [Dernoncourt and Lee, 2017] 和MedQA [Jin et al., 2021],这使得开发专门针对生物医学文本训练的LLMs成为可能。这些模型通常采用静态知识嵌入方法,充分利用生物医学数据的领域特定丰富性。例如,PMC-LLaMA [Wu et al., 2023] 通过在S2ORC数据集 [Lo et al., 2020] 中筛选的490万篇PubMed Central文章上进行进一步预训练,扩展了LLaMA 7B模型,完成了五个训练周期以有效嵌入生物医学知识。类似地,Med-PaLM 2 [Singhal et al., 2023b] 基于PaLM 2通过指令微调构建。该微调结合了多种医学问答数据集,包括MedQA、MedMCQA [Pal et al., 2022] 和HealthSearchQA [Singhal et al., 2023a]。
除了基础模型外,整合外部工具和知识可以进一步提升性能。例如,GeneGPT [Jin et al., 2024] 利用在代码任务上预训练的LLM,通过使用NCBI Web API来应对GeneTuring测试。该方法结合了上下文学习和增强的解码算法,能够识别并执行API调用。类似地,Med-PaLM [Singhal et al., 2023a] 引入了向量提示——存储和检索医学领域知识的表示——以扩展Flan-PaLM [Chung et al., 2024] 的能力。
经过微调的金融LLMs通过任务特定训练,展示了将通用模型适应领域特定任务的显著进展。PIXIU [Xie et al., 2023] 在13.6万条针对金融任务的指令样本上微调LLaMA,使模型能够处理广泛的领域相关场景。InstructFinGPT [Zhang et al., 2023] 在来自两个金融情感分析数据集的1万条指令样本上微调LLaMA,主要专注于金融分类任务。FinGPT [Yang et al., 2023] 引入了一个端到端的框架,用于在金融行业中训练和部署FinLLMs。利用LoRA技术,FinGPT在大约5万条任务特定样本上微调开源LLMs(如LLaMA和ChatGLM),实现了无需完全重新训练的高效微调。
相比之下,从头训练的金融LLMs旨在创建专门为金融任务设计的模型。BloombergGPT [Wu et al., 2023] 利用来自Bloomberg特定数据的50亿个token子集(仅占其总训练语料库的0.7%)来定制其模型以适应金融应用。XuanYuan 2.0 [Zhang and Yang, 2023] 结合了3660亿个token进行预训练,并额外使用130亿个token进行微调,创建了最大的中文金融聊天模型。类似地,Fin-T5 [Lu et al., 2023] 引入了基于T5架构的中文金融预训练语言模型,使用了300GB的金融语料库。此外,SNFinLLM [Zhao et al., 2024a] 在推理过程中动态整合实时金融数据,以增强决策能力,展示了领域特定预训练和适应性在金融LLMs中的价值。
与生物医学领域不同,在材料和化学领域,由于缺乏大规模语料库,研究主要集中在利用任务相关工具,这与动态知识注入范式一致。
例如,Xie et al. [2024] 展示了Darwin 1.5如何利用自然语言输入和两阶段训练策略,在材料发现和设计任务中取得显著改进。Bran et al. [2023] 引入了ChemCrow,这是一个通过化学专家设计的工具增强LLMs的框架,用于有机合成和药物发现等下游任务。还有关于提示优化的研究 [Tang et al., 2025],表明设计更好的规划提示可以有效利用模型的内部知识来协调复杂任务。这种方法利用多个LLMs的规划和执行能力,实现化学实验的自主性。
最近,化学领域对静态知识嵌入和模块化知识适配器的探索兴趣日益增加。例如,Chen et al. [2024] 策划了一个QA数据集,用于微调预训练模型(如BERT和LLMs中的Llama),旨在提高其在化学相关任务中的表现。类似地,Xie et al. [2024] 引入了Darwin 1.5,这是一个为材料科学量身定制的开源大型语言模型。
我们介绍的最后一个领域是人本科学,涵盖了广泛的应用,如心理咨询、金融预测、社会行为预测和法律推理。所有这些领域都围绕理解和满足人类需求、行为和决策过程展开。
在心理健康领域,PsyQA [Sun et al., 2021] 等数据集为训练心理咨询场景中的模型提供了基础。例如,SoulChat [Chen et al., 2023] 是一个在10万条长文本心理咨询会话上通过静态知识嵌入微调的模型,专为共情对话设计。类似地,MeChat [Qiu et al., 2023] 采用动态知识注入以适应实时输入,显著增强了其情感支持能力。这些进展展示了人本科学通过个性化和情境感知解决方案应对复杂现实挑战的潜力。
在教育领域,LLMs在应对个性化学习、课程对齐和互动教学等挑战方面展现了巨大潜力。例如,个性化学习要求模型适应个体需求,提供定制反馈和情感支持。EduChat [Dan et al., 2023] 通过静态知识嵌入利用心理学和教育学的教育理论,支持开放问答、作文批改和情感支持等任务。类似地,QiaoBan [Weixiang et al., 2023] 专注于以儿童为中心的教育,通过提示优化根据儿童心理和情感状态调整模型行为,专门为年轻学习者服务。领域特定教育和互动教学也通过LLMs取得了进展。CyberQ [Agrawal et al., 2024] 通过AISecKG [Agrawal, 2023] 结合静态知识嵌入和动态知识注入,生成基于网络安全最佳实践的问答。互动教学则受益于SocraticLM [Liu et al., 2024c] 等模型,该模型通过在SocraTeach数据集上微调的适配器,引导学生进行批判性思维和问题解决。
在社会科学领域,SocialLLM [Jiang and Ferrara, 2023] 等模型结合静态知识嵌入和动态知识注入,分析社交网络中的人类行为。适配器促进大规模数据整合,而提示优化则引导模型关注特定的社会行为模式。FPS [Liu et al., 2024e] 和FUSE [Liu et al., 2024f] 等模型使用提示优化来模拟虚假新闻在社交网络中的传播和演变,帮助理解 misinformation 的影响。
表3总结了主流模型及其信息。更多跨领域的模型可访问:Survey-official-repo。