专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

知识图谱增强营养健康大模型：迈向改进的管理、可重复性和验证 - RPI等

知识图谱科技 · 公众号 · · 2025-02-04 09:16

正文

摘要

生成式大型语言模型（LLMs）通过实现快速、类人的文本生成改变了人工智能领域，但它们面临挑战，包括管理不准确的信息生成。诸如提示工程、检索增强生成（RAG）以及整合特定领域知识图谱（KGs）等策略旨在解决这些问题。然而，尤其是在通过Web API使用封闭访问LLM的开发者中，实现实验的管理、可重复性和验证所需水平仍存在挑战，这增加了与外部工具集成的复杂性。为解决这一问题，我们正在探索一种软件架构，通过优先考虑灵活性和可追溯性来增强LLM工作流程，同时促进更准确和可解释的输出。我们描述了我们采用的方法，并提供了一个营养案例研究，展示了其将大型语言模型（LLMs）与RAG和知识图谱（KGs）整合以获得更强大AI解决方案的能力。

LLM experimentation through knowledge graphs: Towards improved management, repeatability, and verification - ScienceDirect

https://www.sciencedirect.com/science/article/pii/S1570826824000398

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何通过知识图谱（Knowledge Graphs, KGs）和检索增强生成（Retrieval-Augmented Generation, RAG）来改进大型语言模型（LLMs）的管理、可重复性和验证。LLMs在生成类似人类的文本方面取得了显著进展，但面临着生成不准确信息的挑战。
研究难点：该问题的研究难点包括：实现LLMs实验的管理、可重复性和验证的期望水平，特别是对于通过Web API使用封闭访问LLMs的开发者，这简化了与外部工具的集成。
相关工作：该问题的研究相关工作包括：prompt工程、RAG框架和基于权威领域本体的知识图谱（KGs）的使用。现有的RAG框架旨在缓解LLMs响应中的幻觉和过时知识或缺失信息的问题。KGs作为结构化的外部信息源，已被用于增强LLMs的可靠性和可解释性。

研究方法

这篇论文提出了一种软件架构，用于增强LLMs的工作流程，优先考虑灵活性、可追溯性和可重复性，同时促进更准确和可解释的输出。具体来说，

灵活性和可追溯性：ChatBS-NexGen架构允许用户交互式地定制和组合高级提示策略，而无需编程知识。通过直观的界面，用户可以轻松配置提示策略（如少样本学习、思维链、验证链）、动态槽位的信息告知系统和用户提示，以及输入数据集。此外，还包括设置模型温度、提示重新提交次数和选择不同的LLMs等选项。所有这些特性共同促进了LLMs实验的灵活性。
RAG和KG增强的LLMs实验：评估模块旨在通过将LLMs的主要实体与领域知识图谱或开放网络连接起来，进行验证、基准测试和专家分析。实验使用的KG平台是Whyis，一个下一代的、具有动态代理交互的有知觉黑板架构。评估模块包括子模块用于实体识别和构建标记实体图，利用Whyis的高级功能，使跨多个LLMs和单个LLMs的多次重新提交的响应之间的比较成为可能。
营养案例研究：使用一个包含100名患者数据的食品和营养领域的数据集进行实验。目标是评估LLMs生成的饮食建议的适用性，考虑到个人因素如性别、年龄、性别、体重、健康指标、慢性疾病诊断以及饮食限制和偏好。

实验设计

数据收集：实验使用了包含100名患者数据的食品和营养领域的数据集。每个患者的个人信息包括性别、年龄、性别、体重、健康指标、慢性疾病诊断、饮食限制和偏好等。
实验设计：在典型的测试运行中，用户（营养研究组的成员）使用ChatBS-NexGen用户界面输入以下信息和选择数据源：提示策略、LLMs、提示重新提交次数、KG链接等。然后，ChatBS-NexGen执行提示设计子模块，实例化100个提示并提交给选定的LLMs。提交控制器子模块提交（并重新提交10次）每个实例化的提示，接收其响应并将其传递给评估步骤。
样本选择：选择了100名患者的数据进行实验，每个患者的提示实例化和重新提交10次。
参数配置：用户可以选择不同的提示策略（如少样本学习、思维链、验证链）、LLMs（如GPT-4o mini和Llama 3.1-8B）、提示重新提交次数等。

结果与分析

验证结果：在100名患者的实验中，LLMs推荐了483种不同的食物类型，其中178种（36.8%）可以通过FoodKG进行验证。对于30名糖尿病患者，LLMs推荐了260种不同的食物类型，其中123种（47.3%）可以通过FoodKG进行验证。
高GI食物的推荐：在推荐的10种高GI（≥50）食物中，LLMs对糖尿病患者提出了不同的建议。例如，Llama 3.1向10名糖尿病患者推荐了“蜂蜜”，占糖尿病患者的33%，而GPT-4o mini推荐了“菠萝”，占30%。
响应一致性：通过计算不同LLMs和同一LLMs的多次响应之间的Jaccard相似系数，发现不同LLMs之间以及同一LLMs的不同响应之间的一致性较低。例如，GPT-4o mini对同一患者的10个响应之间的Jaccard相似系数为0.05，表明只有5%的食物在所有响应中被共享。

总体结论

这篇论文提出了一种新的架构ChatBS-NexGen，用于改进LLMs实验的管理、可重复性和验证。通过结合RAG和KGs，该架构能够提供更准确和可解释的输出，并通过详细的日志记录确保实验的可追溯性。未来的研究方向包括支持多模态输入输出、自动提示策略、与XAI框架的集成、逻辑一致性验证器和对抗场景模拟器等。

论文评价

优点与创新

灵活的架构设计：ChatBS-NexGen架构通过直观的界面和模块化的设计，支持多种提示策略、不同的LLM架构、数据输入和实验设置，确保了实验的灵活性。
可追溯性：整个实验过程被详细记录，包括时间戳、提示数据、模型版本、响应元数据等，确保了实验的可追溯性。
重复性控制：通过日志记录和多次执行，可以重现相同的实验条件，评估LLMs响应的变化，增强了实验的重复性。
RAG和KG集成：该架构支持检索增强生成（RAG）和知识图谱（KG）的集成，显著提高了响应的验证性和解释能力。
营养案例研究：通过真实的医疗项目案例，展示了该架构在实际应用中的潜力，特别是在处理LLMs生成的饮食建议时，能够识别不适当的推荐和高变异性。
多模型支持：支持多种LLMs的交互和评估，增强了平台的通用性和实用性。

不足与反思

知识图谱的局限性：在应用领域中，知识图谱的数据不完整和查询构建的复杂性是主要限制因素。许多知识图谱缺乏关键属性或完全缺失，限制了其在详细和可靠分析中的应用。
标准化本体的重要性：采用标准化和权威本体对于增强不同系统之间的互操作性至关重要。需要开发方法将详细的溯源元数据嵌入知识图谱中，并展示其在提高可靠性和实用性方面的应用。
查询机制的改进：需要改进知识图谱查询机制，简化领域特定数据的检索过程，以便用户更容易使用。
未来研究方向：包括支持多模态输入输出、引入自动提示策略、通过与XAI框架集成提供高级解释能力、整合逻辑一致性验证器和对抗场景模拟器、动态集成多样化指标进行上下文评估、关注安全验证和偏见缓解等方面的工作。

关键问题及回答

问题1：ChatBS-NexGen架构如何实现LLMs实验的灵活性和可追溯性？

ChatBS-NexGen架构通过以下方式实现LLMs实验的灵活性和可追溯性：

灵活性：用户可以通过直观的界面交互式地定制和组合高级提示策略，如少样本学习、思维链（CoT）、验证链等。用户还可以输入动态槽位和相应的数据集，并设置模型温度、提示重提交次数和选择不同的LLMs。这些功能使得平台能够适应多样化的实验要求和用例。
可追溯性：整个实验过程被详细记录，包括时间戳、输入提示、模型版本、响应元数据、实验参数和外部集成等信息。这些日志确保了每一步骤都可以被追踪和审计，从而提高了实验的透明度和可重复性。

问题2：在营养案例研究中，ChatBS-NexGen如何利用知识图谱（KGs）验证LLMs生成的饮食建议？

实体识别：首先，ChatBS-NexGen识别出LLMs响应中的食物名称。
链接到KG ：然后，将这些食物名称链接到FoodKG和WhatToMake本体。FoodKG包含了食物的详细信息，如血糖指数（GI），这些信息用于验证LLMs的建议是否适合特定的健康状况。
验证和分析：通过比对FoodKG中的信息，ChatBS-NexGen能够验证LLMs推荐的食物是否合适。例如，对于糖尿病患者，系统可以检查推荐食物的高GI值，并提供相应的反馈。

问题3：ChatBS-NexGen在处理LLMs响应的相似性分析时采用了哪些方法？这些方法揭示了什么？

ChatBS-NexGen采用了两种方法来分析LLMs响应的相似性：

跨LLMs比较：通过计算不同LLMs（如Llama-3.1和GPT-4o mini）之间响应的Jaccard相似系数，来比较它们对同一患者的推荐结果。例如，Llama-3.1和GPT-4o mini对同一患者推荐的食品覆盖范围分别为42%和39%。
同一LLMs内部比较：通过计算同一LLMs（如GPT-4o mini）多次响应之间的Jaccard相似系数，来评估其一致性。例如，GPT-4o mini对同一患者生成的10个响应的Jaccard相似系数为0.05，表明不同响应之间的一致性很低，推荐结果存在显著差异。

这些方法揭示了LLMs在生成推荐时存在的高变异性和一致性挑战，强调了在管理和验证LLMs响应时需要更多的自动化和结构化工具。

参考文献