专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

WWW 2025 | OntoTune：利用领域本体驱动大语言模型的自训练精调

将门创投 · 公众号 · 科技创业 · 2025-03-28 08:22

正文

请到「今天看啥」查看全文

本文提出了基于本体驱动的自训练微调框架 OntoTune ，通过上下文学习识别种子模型未掌握的本体知识，并自训练增强模型与本体的对齐能力。实验表明，OntoTune 在本体内外任务中均达到最新性能，同时保留了种子模型的原有知识。相比依赖大规模语料库训练的领域 LLMs， OntoTune 仅需小规模本体和种子模型即可实现更强泛化能力。

论文题目：

OntoTune: Ontology-Driven Self-training for Aligning Large Language Models

论文链接：

https://arxiv.org/pdf/2502.05478

代码链接：

https://github.com/zjukg/OntoTune

一、引言

现有的领域特定大型语言模型（LLMs）通常通过使用大规模领域特定语料对通用型LLMs进行微调来开发。然而，在大规模语料上的训练往往难以有效地组织LLM的领域知识，导致对知识的碎片化理解。受到人类通过思维导图连接概念并组织知识的启发，我们旨在通过本体（ontology）中层次化的概念知识来重新组织LLMs的领域知识。从这一视角出发，我们提出了一种基于本体驱动的自训练框架，称为OntoTune，其目标是通过上下文学习（in-context learning）将LLMs与本体对齐，从而生成受本体指导的响应。

我们利用上下文学习来识别LLM是否掌握了特定概念的本体知识，并选择LLM尚未掌握的条目作为训练集，以进一步将LLM与本体对齐。与基于新收集的大规模领域特定语料的现有领域LLMs相比，我们的OntoTune依赖于现有、长期开发的本体以及LLM自身，大幅减少了数据维护成本，并提供了更好的泛化能力。

二、方法

目标定义

我们首先设定一个目标，用以评估初始模型是否掌握了领域本体知识并能够指导模型的响应。给定一个与本体知识密切相关的指令，我们可以得到两种类型的响应：

如果初始模型在生成响应时已完全掌握并正确利用了本体知识，那么应该等于。否则，由于LLM具有上下文学习的能力，包含本体知识的输入可以产生更系统化和更具逻辑性的响应，因此应该优于。然而，在许多情况下，与并不接近或相似。为了将本体知识内化到LLMs中，我们设定优化目标为：

如前所述，这一目标大致意味着已经掌握了本体知识，并且在生成响应时能够正确地利用内部的本体知识。

指令文本生成

为了评估大语言模型在各个维度上对本体知识的掌握程度，我们设计了三种不同的概念级指令模板。这些模板从多样性、概念性和专业性的角度评估种子模型中的本体知识是否能够有效地指导生成的响应。首先，我们围绕概念t将指令作为种子模型的输入得到对应输出。同时，我们将指令与相关的本体知识作为输入，得到在本体指导下的输出。其中，本体知识包括概念的定义、上位词与同义词，可以直接从本体库中检索获得。我们发现本体库中缺乏部分概念的定义，因此我们通过种子模型的少样本学习为这些概念生成相关定义。

不一致文本选择

对于概念t，如果模型响应和是一致的，这表明种子模型中与概念相关的本体知识可以隐式地指导模型输出。因此，我们选择不一致的响应作为训练集，使种子模型与本体对齐。为了评估不一致性，我们基于三种不同的度量标准计算混合相似度分数：嵌入余弦相似度sim(·)、ROUGE-L和BLEU-4，计算公式为

最终，我们选出一致性分数最低的k条作为模型训练语料，包括监督微调（SFT）语料与直接偏好对齐（DPO）语料

。

大语言模型微调

基于上述构建的训练集，我们使用三种微调方法得到与本体对齐后的大模型：监督指令微调（SFT）、直接偏好优化（DPO）和监督指令微调结合直接偏好优化（SFT+DPO）。其中，监督指令微调结合直接偏好优化方法参考现有开发领域大模型的训练流程，先对大模型进行监督指令微调，再采用直接偏好优化。

三、实验分析

在本文中，我们选择医疗领域作为示例来评估我们方法的有效性，因为医疗领域受到广泛关注，并且拥有丰富的评估数据集和基准。具体来说，我们采用了标准化的SNOMED CT 2024国际六月版本作为我们的本体源，其中包含367,978个医学概念，其中只有8,275个具备相应的定义，以及246,356个分类学关系（例如，“is-a”关系）。为了匹配现有领域特定LLM的训练规模，我们在每种语料类型中选择 k = 100,000 个不一致的样本进行训练。

领域本体推理

如上表所示，OntoTune~sft~模型在医疗子集数据集上实现了最新的性能表现，相较于初始模型LLaMA3提升了19.45%，相较于TaxoLLaMA提升了11.73%。虽然TaxoLLaMA使用了完整的SNOMED CT本体进行训练，但并未取得显著的性能提升。此外，我们观察到，基于大规模医学语料训练的Aloe和Med42-v2表现出了明显的性能提升。实验结果表明，与TaxoLLaMA相比，OntoTune能够更高效地将本体知识融入到LLMs中。值得注意的是，尽管我们的训练集不包含意大利语和西班牙语数据，OntoTune~sft~在多语言环境中仍然实现了最先进的性能表现，相较于初始模型有显著提升。这表明我们的OntoTune能够有效地将初始模型与本体知识对齐，甚至可以泛化到其他分类学场景。

医学问答

从上表结果可以观察到，相较于其他基于LLaMA3 8B微调的模型变体，我们的三种OntoTune变体以及TaxoLLaMA方法均实现了显著的性能提升。尽管在大规模原始语料上训练的LLMs在某些数据集上表现良好，但它们相较于初始模型的改进并不稳定，且平均分数低于我们的OntoTune。这表明从大规模语料中学习存在一定的挑战。这表明，即使是小规模但高质量的本体，也有助于增强LLMs在特定领域的能力。

通用能力评估

尽管我们的OntoTune在微调阶段并未使用额外的通用指令，却表现出了良好的性能。由于固定的输入输出格式以及缺乏数据多样性，TaxoLLaMA遭受了最显著的性能下降。与TaxoLLaMA相比，我们的OntoTune方法并未表现出明显的灾难性遗忘。同样地，OntoTune~sft~在三种变体中表现最好，相较于初始模型，平均仅下降0.49%。

自我训练分析

旨在探索数据质量对模型性能的影响，我们从两个更强大的LLM（LLaMA 3.1 8B和deepseek-v2.5）中蒸馏出更高质量的结果。然后，我们在相同的超参数设置下，使用

对同一初始模型LLaMA3 8B进行训练。

上图展示了三个OntoTune变体在领域问答任务与通用能力的结果。在大多数数据集中，所有三种OntoTune变体的性能都有所提升。其中，自监督训练的OntoTune~sft~模型表现出稳健且先进的性能，在所有数据集上都实现了提升。可以观察到，由同系列的LLaMA 3.1蒸馏出的OntoTune~sft~在知识问答数据集（如MMLU和TriviaQA）上的性能下降最小。有趣的是，尽管LLaMA 3.1在数据蒸馏过程中仅专注于医学领域知识，该模型在推理挑战数据集（如ARC）和安全性评估数据集（Advbench）上的表现也有所提升。

此外，从deepseek蒸馏出的OntoTune~sft~模型在知识与安全性评估中表现出显著下降，但推理能力有明显提升。总体而言，自监督训练无需依赖更高级的LLM即可实现最为高效的领域对齐，同时极大程度地保留了原始知识。

四、总结

在本文中，我们提出了一种基于本体驱动的自训练微调框架 OntoTune。该框架利用上下文学习来识别种子模型尚未获取的特定概念的本体知识，并通过自训练增强种子模型与本体的对齐能力。实验结果表明，OntoTune 在本体内的任务（如上位词发现任务）和本体外的任务（如医学领域问答任务）中均达到了最新的最先进性能，同时显著保留了种子模型已有的知识。相比现有的基于大规模高质量语料库训练的领域大型语言模型（LLMs），OntoTune 仅依赖一个相对小规模、长期开发的本体及种子模型本身，展现出了更强的泛化能力。

作者：刘治强

来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（ www.techbeat.net ）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。