专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

KnowNET：通过知识图谱集成大模型引导健康信息抽取

知识图谱科技 · 公众号 · · 2025-02-09 09:04

正文

摘要

随着对大型语言模型（LLMs）在健康信息搜索中依赖性的增加，由于潜在的错误信息和这些主题的复杂性，可能会带来严重风险。本文介绍了KNOwNET这一可视化系统，它将LLMs与知识图谱（KG）相结合，以提供更高的准确性和结构化探索。具体来说，为了提高准确性，KNOwNET从LLM输出中提取三元组（例如，实体及其关系），并将它们映射到外部KGs中的已验证信息和支持证据。为了结构化探索，KNOwNET根据当前在KGs中探索的实体的邻域提供后续步骤建议，旨在引导全面理解，不遗漏关键方面。为了能够同时处理KGs中的结构化数据和LLMs的非结构化输出，KNOwNET将主题理解概念化为图形可视化的逐步构建。引入渐进式图形可视化来监控过去的查询，并将当前查询与探索历史和后续步骤建议相连接。我们通过用例和专家访谈展示了我们系统的有效性。

[2407.13598] KNOWNET: Guided Health Information Seeking from LLMs via Knowledge Graph Integration

https://arxiv.org/abs/2407.13598

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何在健康信息检索中利用大型语言模型（LLMs）和知识图谱（KG）来提高信息的准确性和探索的结构化。
研究难点：该问题的研究难点包括：LLMs的输出可能包含不准确的信息，难以验证；用户在使用LLMs时缺乏探索和验证的指导；信息过载问题；缺乏目标导向的指示器。
相关工作：该问题的研究相关工作包括：通过提示设计提高LLMs的可控性；将图形表示整合到传统文本界面中；检索增强生成（RAG）方法，通过查询外部数据集来提高LLMs的输出质量。

研究方法

这篇论文提出了KNOWNET系统，用于解决健康信息检索中的准确性和结构化探索问题。具体来说，

信息提取与验证：首先，KNOWNET从LLMs的输出中提取三元组（例如实体及其关系），并将这些三元组映射到外部KG中的验证信息和支持证据。这一过程通过生成嵌入向量并计算余弦相似度来实现。
结构化探索推荐：其次，KNOWNET根据当前探索的实体在KG中的邻域提供进一步探索的建议。用户的状态基于他们的探索历史进行建模，使用n-context分析来更新用户的当前状态，并生成基于KG结构的查询建议。
逐步图形可视化：此外，KNOWNET引入了一种逐步图形可视化技术，用于监控过去的查询，并将当前查询与探索历史和下一步建议连接起来。这种设计有助于用户在多步探索过程中保持焦点，避免信息过载。

实验设计

数据收集：KNOWNET使用了GPT-4作为LLMs，并利用了ADInt KG，该KG包含了162,212个节点和1,017,284条边，涵盖了15种类型的实体和754,224篇科学文献。
实验设计：研究通过15个用例展示了KNOWNET的实用性和可用性，这些用例涉及与膳食补充剂相关的不同问题。每个用例包括一系列对话，集中在特定问题上。
样本选择：选择了医疗研究人员、健康科学学生和患者倡导者作为主要用户，他们具备理解复杂医学概念和解释研究结果的能力。
参数配置：在实体匹配和关系匹配过程中，设置了余弦相似度的阈值为0.94，以确保关系的准确性。

结果与分析

互补性：LLMs和KG可以相互补充，提供来自不同资源的信息。LLMs可以提供上下文和细节，而KG可以提供准确和结构化的知识。
常见问题：在集成过程中也发现了一些常见问题，包括LLMs输出的模糊术语与KG中的标准化术语不匹配、KG的范围有限无法验证领域外的知识、GPT4过于谨慎导致信息不完整、以及并非所有知识都能有效地表示为图形。
专家反馈：专家们对KNOWNET的易用性、有效性和改进建议进行了评估。他们认为KNOWNET能够清晰地解释实体之间的关系并提供相关文献，逐步可视化和下一步建议有助于指导探索。

总体结论

这篇论文提出了KNOWNET系统，通过将LLMs与KG集成，解决了健康信息检索中的准确性和结构化探索问题。KNOWNET通过提取和映射LLMs输出中的三元组来提高信息的准确性，并通过基于KG邻域分析提供结构化探索建议。逐步图谱可视化技术帮助用户在多步探索过程中保持焦点，避免信息过载。研究结果表明，KNOWNET在膳食补充剂领域的应用是有效的，并且可以推广到其他需要结构化探索和文献验证的应用场景。

论文评价

优点与创新

增强准确性：KNOWNET通过从LLM输出中提取三元组（如实体及其关系）并将其映射到外部知识图谱（KG）中的验证信息和支持证据，从而提高了信息的准确性。
结构化探索：KNOWNET提供了基于当前探索实体在KG中的邻域的下一步推荐，旨在指导用户进行全面的理解，而不遗漏关键方面。
逐步图可视化：KNOWNET引入了逐步图可视化，用于监控过去的查询，并将当前查询与探索历史和下一步推荐连接起来。
多步骤探索管理：KNOWNET采用了焦点+上下文设计，通过逐步构建知识图来帮助用户集中注意力并避免信息过载。
领域适用性：尽管论文主要在膳食补充剂领域展示了KNOWNET的有效性，但该方法适用于需要结构化探索和文献验证的其他应用领域。

不足与反思

KG的固有限制：尽管KG在表示结构化知识方面非常有效，但它们可能无法完全捕捉人类认知的复杂性，特别是那些不太结构化或依赖于上下文的信息。
信息验证的局限性：KNOWNET中支持的信息验证仅限于整合的KG范围。当关系不能在KG中得到验证时，并不意味着该关系是不真实的，用户应谨慎解释从KG中得出的验证信息。
用户知识的动态整合：未来的研究方向包括将用户知识动态整合到系统中，以进一步提高输出的可靠性。
界面改进：尽管当前KNOWNET界面有效，但在直观性和熟悉度方面有进一步改进的空间。例如，当前的线性导航器可以扩展为包含树状选项，以帮助用户更有效地跟踪和比较与特定问题相关的不同探索路径。
评估的局限性：评估KNOWNET的用户数据有限，使得对整个系统和关键组件（如实体匹配和推荐）进行定量评估具有挑战性。未来的研究可以通过与领域专家的密切合作和定期收集反馈来缓解这一限制。

关键问题及回答

问题1：KNOWNET系统在信息提取与验证过程中是如何利用嵌入向量和余弦相似度的？

KNOWNET系统在信息提取与验证过程中，首先使用OpenAI的text-embedding-ada-002模型生成LLM输出和KG节点之间的嵌入向量。具体步骤如下：

实体和关系提取：从LLM的输出中提取三元组（例如实体及其关系）。
嵌入向量计算：使用text-embedding-ada-002模型计算这些三元组中的实体和关系在KG中的对应节点的嵌入向量。
余弦相似度匹配：计算LLM输出的实体和关系嵌入向量与KG节点嵌入向量之间的余弦相似度。
验证和信息提取：根据余弦相似度阈值（本文中为0.94），将LLM输出的实体和关系映射到KG中的相应节点，从而提取验证信息和支持证据。

这种方法确保了LLM输出的信息能够与外部KG中的可靠证据进行对比和验证，提高了信息的准确性和可信度。

问题2：KNOWNET系统如何基于KG的结构化邻域和用户的探索历史提供进一步探索的建议？

KNOWNET系统通过以下步骤基于KG的结构化邻域和用户的探索历史提供进一步探索的建议：

用户状态建模：使用n-context分析模型表示用户的当前状态，将用户的连续查询历史转换为一个节点序列或节点类型序列，并将其映射到KG中。
子图构建：从用户初始查询中提到的实体出发，提取KG中与这些实体相关的邻接节点，构建一个子图（Subgraph_Q），这个子图包含了潜在的探索主题。
推荐生成：基于子图中的节点和关系，使用规则模板生成自然语言问题作为候选查询。例如，如果用户询问关于Omega-3脂肪酸的信息，系统会生成类似“Omega-3脂肪酸对其他疾病的影响有哪些？”的问题。
动态调整：根据用户的反馈（如移除不感兴趣的建议或提出新的高度相关问题），动态更新推荐池，确保建议的相关性和个性化。

这种推荐机制不仅考虑了KG的结构化信息，还结合了用户的个人探索历史和偏好，提供了更加精准和有价值的探索建议。

问题3：KNOWNET系统在逐步图谱可视化方面是如何设计的，以缓解信息过载问题？

KNOWNET系统采用了focus+context设计和逐步图形可视化来缓解信息过载问题：

图形化表示：将LLM的文本响应转换为图形化表示，使用节点-链接图来展示实体及其关系。节点通过颜色编码区分不同类型的实体，便于用户识别和导航。
逐步构建：用户在探索过程中逐步添加新的节点和边，新添加的元素会被高亮显示，而之前的元素会逐渐淡化，帮助用户集中注意力在当前查询上，同时保持对整体上下文的认识。
进度跟踪：提供一个导航器，显示用户的探索历史和一个圆形进度条，指示用户在KG邻域内已探索的比例。用户可以通过点击导航器上的点来重新访问之前的查询，并在弹出的工具提示中查看详细的响应和图形化表示。

这种设计通过逐步构建和焦点+上下文的方法，帮助用户在探索复杂信息时保持专注，避免被大量信息淹没，从而有效缓解信息过载问题。

参考文献