专栏名称: DataFunSummit

DataFun社区旗下账号，专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容，定期提供资料合集下载。

NabulaGraph + LLM 处理风控知识图谱的探索和实践

DataFunSummit · 公众号 · · 2025-01-30 18:00

正文

导读在当前数据驱动的时代，图数据库与大语言模型（如 GPT）正逐步融合，为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术，应用平台不仅能够支持结构化数据的查询，还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域，随着图数据库的规模化和大语言模型的推理能力的提升，系统能够实时响应复杂的风险场景，提供个性化的决策支持。未来，随着交互式查询和智能分析的进一步发展，图谱技术将在各种行业中大显身手，推动自动化和智能化的转型，提升数据分析和决策的效率和准确性。

主要内容包括以下几个部分：

1. 在 NebulaGraph 上构建应用风控图谱的成熟实践

2. LLM 基于图可以做什么？

3. NebulaGraphRAG 应用平台和开发者 SDK

4. 问答环节

分享嘉宾｜余毅航 NebulaGraph GenAI engineer

编辑整理｜陈思永

内容校对｜李瑶

出品社区｜ DataFun

在 NebulaGraph 上构建应用风控图谱的成熟实践

在当今数据驱动的世界中，图数据库作为一种强大的数据结构，凭借其高效的查询性能和灵活的关联分析能力，正日益成为金融、风控等领域的核心技术之一。

NebulaGraph 是一款开源的超大规模图数据库，支持毫秒级延迟，采用分布式架构，能够保证在大规模数据环境下的高效查询和高可用性。NebulaGraph 5.0 商业版目前尚未开源，是业界第一家原生支持 ISO GQL 的图数据库。

接下来分享 NebulaGraph 在风控领域的一些成熟实践。

在金融实时风控场景中，图数据库可以帮助实时监控和分析交易行为。以商户付款为例，当用户进行支付操作时，这个行为就形成了一个付款关系。在这种场景下，实时风控要求在用户付款的几秒钟内完成风险判定，并做出相应的处理决策。因此，对图数据库查询性能的要求极为高效，必须具备毫秒级响应能力。客户基于 NebulaGraph 构造了百亿级反欺诈图，以满足实时风控需求。

除了实时分析交易行为，还需要对已经落库的数据进行查询，图数据库可以实现实时查询与离线计算的融合。传统数据库中的数据通过ETL流程导入图数据库，进而可以执行更复杂的分析计算。例如，在进行社区检测等需要大量计算的任务时，图数据库能够高效处理异步操作和大规模数据计算。在图数据库中，我们可以执行更复杂的计算任务，如：

社区检测： 通过分析客户之间的关系网络，检测潜在的虚假账户群体。
路径分析： 通过分析用户行为路径，识别出不合规或异常行为模式。
行为模式识别： 通过对用户行为的深入分析，识别出潜在的欺诈行为或恶意攻击模式。

在欺诈分析中，图数据库提供了强大的图指标分析能力。例如，在发卡风控场景中，通过分析申请人的单位、家庭、设备等维度的关联，图数据库能够构建一个业务知识图谱。该知识图谱不仅能够识别欺诈行为，还能够揭示异常的申请人模式。例如，某些账号可能存在相似的行为模式，或不同账号之间的关联性异常，这些都可以通过图算法识别出来。

平台分析模块中，提供了快速构建图谱规则和指标定义的能力，可以快速将各类业务逻辑进行转换，并基于规则对指标进行计算分析。

更进一步，图数据库还可以应用社区检测算法。通过客户关系、转账 IP、设备号、联系电话等多个维度，将客户划分为多个社群，并计算各个社群之间的关联强度。通过这些社群指标，能够有效挖掘可疑个体，提升风控规则的覆盖率和准确性。

LLM 基于图可以做什么？

随着人工智能技术的不断发展，大模型在多个领域的应用逐渐显现出强大的潜力。对于图数据库而言，如何将大模型与图数据库结合，成为进一步提升查询能力和决策支持的关键。

一方面，基于图数据库的图结构，可以作为输入提供给大模型，使大模型具备理解和操作图的能力。另一方面，利用大模型，可以在图数据库上执行更加智能的查询，并进行深度分析。

1. Text to GQL

最直接的一个应用方式就是 Text to GQL。目前，利用大模型的代码生成能力，已经有很多成熟的 Text to SQL 应用。过去图数据库查询没有统一的语言，现在有了 ISO GQL，通过标准 GQL 数据的累积，可以训练大模型，使其能够提供 Text to GQL 的能力，从而实现直接使用自然语言进行图数据库查询。在当前 Text to GQL 能力不足的情况下，可以利用规则对代码进行校正，以提高准确率。

2. 让 Agent 理解图谱

进一步，大模型要能够理解从图数据库读取到的数据。读取到的点边关系，可以序列化为 text，输入大模型，再加上一些 prompt 提示大模型其语义，以便大模型更好地理解数据。

3. Chain of Exploration 探索链

结合查询和理解图的能力，就可以构成一个“探索链”（Chain of Exploration）。大模型可以通过制定探索计划，逐步执行查询任务，形成一个闭环。具体来说，首先，大模型会根据给定的任务，制定查询计划，确定查询的子图或路径；然后，大模型执行查询，获取结果，并进一步分析这些结果。基于这些分析，模型可以继续调整查询策略，直到达到预期目标。

这种方法不仅仅是单次查询的执行，更是一个持续优化和反馈的过程，形成了一个智能化的查询与决策链条。通过不断的迭代，图数据库能够与大模型结合，实现更高效、更智能的查询和数据分析。

4. 从非结构化数据到半结构化知识图谱

除了结构化数据，对于非结构化数据（如文本、图片、音频等），也可以提取成知识图谱的形式，再利用结构化查询的能力进行查询。

通过文本抽取技术，可以将文本数据转化为 三元组 （如 "Harry Potter", "has parents", "James Potter"），这是最基本的知识图谱表示方式。这样的三元组可以通过图数据库进行存储和查询，以便提取出其中的关系和实体。

然而，对于一些复杂的场景，不仅是简单的三元组，还需要考虑节点和边的类型，以及附带的时间、位置等属性。这就产生了半结构化知识图谱的概念，即图谱中的数据虽然大部分还是来自于文本，但它已经包含了某些结构化的信息，例如时间戳、实体类型等。例如，“Harry Potter”可能有多个类型的关联（Person、Location、Book 等），而这些关系和属性可以帮助在查询时进行过滤。

这种半结构化知识图谱不仅能够表示实体及其关系，还能通过带有时间、地点等属性的附加信息来进行更复杂的查询。例如，在风控场景下，我们可以根据时间区间或地点限制来查询某些特定行为是否发生过，从而提高查询精度。

构建图谱类型可以按两个维度划分为四个区间，如上图所示。一个维度是领域特定型或通用型，领域特定指的是有明确的点边类型，而通用则是无明确类型，介于两者之间也有一些半结构化的类型，比如带有类型和属性，但主要信息在文本中。另一个维度是分析型或知识型，分析型是利用大模型生成 GQL 查询语句，获得结构化的查询结果；而知识型更注重总结查询结果的能力，以自然语言的形式给出总结报告。

5. 图谱的分层管理

在 NebulaGraph 中可以实现图谱的分层管理。如上图中所示，红色点为 Harry Potter 小说，黄色点是由小说切分出的 text 片段，绿色点是基于黄色点的片段中抽取出来的知识图谱，最后蓝色点是从知识图谱中获取的一些结构化的洞见。

这里得到蓝色点采用的方法是微软的 From Local to Global 的方法。该方法是在知识图谱上，通过社区检测划分出不同的社区，进行分层总结，从而在半结构化知识图谱中隐式地提取出图结构信息。

NebulaGraph 作为一款数据库，还需要提供数据库相关操作和管理的能力。在 NebulaGraph 上，可以实现元数据、原始数据、索引、知识图谱、知识报告的统一存储、统一管理。例如，黄色点这些文本 chunks 中带有 embedding 信息，可以进行向量检索，实现传统 RAG；在绿色点上，可以做 Text to GQL，实现知识图谱的查询；而在蓝色点上进行向量检索，则可以获得经过总结的具有全局视野的结果。

除了查询方面的能力，基于统一存储，还可以实现便捷的增删改操作。例如，如果需要删除某个节点，可以同时删除与之相关的边和子图，从而保证数据的一致性和完整性。

NebulaGraphRAG 应用平台和开发者 SDK

最后，介绍一下 NebulaGraphRAG 应用平台和开发者 SDK。

NebulaGraphRAG 应用平台，是类似于传统 RAG 的基于图谱的问答系统。当然，我们也意识到问答形式的局限性，因此也在考虑扩展更多交互形式，提升系统的灵活性和用户体验。

图数据库与 RAG 结合的优势在于，不仅能够进行结构化的数据查询，还能够支持更复杂的全局性分析和推理。通过 GraphRAG 的支撑，能够为用户提供更加丰富的信息处理能力。

未来，系统会在已有的结构化图谱基础上，进一步扩展功能，使其能够支持智能分析。具体而言，利用 Agent 技术来调用规则库，可以自动化处理复杂的业务规则，并根据查询结果做出相应的推理和决策，从而进一步提升风控和其他业务分析的智能化水平。同时，Graph 与交互系统的深度集成将由开发者工具 SDK 提供全面支持，确保开发者可以在平台上高效构建自己的应用。

问答环节

Q1 ：前端集成 LLM 和 Agent 功能

是否考虑将 LLM 或 Agent 功能集成到前端界面，如 explorer 工具中，以便提升用户体验。

A1：目前有可能实现这种集成，尤其是在 explorer 工具中，作为前端的一个载体，便于展示和使用 LLM 及 Agent 功能。

Q2 ：GraphRAG 的成本和效益

GraphRAG 如何解决成本问题，特别是在与传统向量嵌入（Vector Embedding）方法的比较下，是否更具优势。

A2：GraphRAG 并不完全取代传统向量嵌入，而是作为一种增强手段，特别是在结构化查询能力和全局性问题的解决上有独特优势。通过构建知识图谱和社区报告（community report），GraphRAG 能够有效处理复杂的关系和全局性问题，其构建过程可能较为昂贵，但查询成本相对较低。此外，可以通过延迟构建和选择较小的模型来优化成本，平衡效果和性能。

Q3 ：构建社区报告的成本优化

构建多个社区报告时，如何避免频繁的 API 调用和数据更新带来的高成本。

A3：为了减少成本，可以采用“懒加载”策略，在真正需要时才生成社区报告。此外，对于数据更新所需的整个图重建问题，可以通过量化数据失效的程度来降低重建频率。例如，当图中的数据失效程度低于一定阈值时，可以容忍其不重建，降低系统负担。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

余毅航

NabulaGraph + LLM 处理风控知识图谱的探索和实践

正文

请到「今天看啥」查看全文