专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
科普中国  ·  AI“朋友圈”,影响力有多大? ·  17 小时前  
科学画报  ·  直播预告 | ... ·  2 天前  
环球科学  ·  读了这15本书,你就不会错过2024年的科学 ... ·  2 天前  
51好读  ›  专栏  ›  DataFunSummit

NabulaGraph + LLM 处理风控知识图谱的探索和实践

DataFunSummit  · 公众号  ·  · 2025-01-30 18:00

正文

导读 在当前数据驱动的时代,图数据库与大语言模型(如 GPT)正逐步融合,为复杂业务场景提供更为智能和灵活的解决方案。通过结合传统的图关系查询方法和新兴的 RAG、Agent 技术,应用平台不仅能够支持结构化数据的查询,还能在非结构化和半结构化数据的分析中发挥重要作用。尤其在风控领域,随着图数据库的规模化和大语言模型的推理能力的提升,系统能够实时响应复杂的风险场景,提供个性化的决策支持。未来,随着交互式查询和智能分析的进一步发展,图谱技术将在各种行业中大显身手,推动自动化和智能化的转型,提升数据分析和决策的效率和准确性。

主要内容包括以下几个部分:

1. 在 NebulaGraph 上构建应用风控图谱的成熟实践

2. LLM 基于图可以做什么?

3. NebulaGraphRAG 应用平台和开发者 SDK

4. 问答环节

分享嘉宾| 余毅航 NebulaGraph GenAI engineer

编辑整理| 陈思永

内容校对|李瑶

出品社区| DataFun


01

在 NebulaGraph 上构建应用风控图谱的成熟实践

在当今数据驱动的世界中,图数据库作为一种强大的数据结构,凭借其高效的查询性能和灵活的关联分析能力,正日益成为金融、风控等领域的核心技术之一。

NebulaGraph 是一款开源的超大规模图数据库,支持毫秒级延迟,采用分布式架构,能够保证在大规模数据环境下的高效查询和高可用性。NebulaGraph 5.0 商业版目前尚未开源,是业界第一家原生支持 ISO GQL 的图数据库。

接下来分享 NebulaGraph 在风控领域的一些成熟实践。

在金融实时风控场景中,图数据库可以帮助实时监控和分析交易行为。以商户付款为例,当用户进行支付操作时,这个行为就形成了一个付款关系。在这种场景下,实时风控要求在用户付款的几秒钟内完成风险判定,并做出相应的处理决策。因此,对图数据库查询性能的要求极为高效,必须具备毫秒级响应能力。客户基于 NebulaGraph 构造了百亿级反欺诈图,以满足实时风控需求。

除了实时分析交易行为,还需要对已经落库的数据进行查询,图数据库可以实现实时查询与离线计算的融合。传统数据库中的数据通过ETL流程导入图数据库,进而可以执行更复杂的分析计算。例如,在进行社区检测等需要大量计算的任务时,图数据库能够高效处理异步操作和大规模数据计算。在图数据库中,我们可以执行更复杂的计算任务,如:

  • 社区检测: 通过分析客户之间的关系网络,检测潜在的虚假账户群体。

  • 路径分析: 通过分析用户行为路径,识别出不合规或异常行为模式。

  • 行为模式识别: 通过对用户行为的深入分析,识别出潜在的欺诈行为或恶意攻击模式。

在欺诈分析中,图数据库提供了强大的图指标分析能力。例如,在发卡风控场景中,通过分析申请人的单位、家庭、设备等维度的关联,图数据库能够构建一个业务知识图谱。该知识图谱不仅能够识别欺诈行为,还能够揭示异常的申请人模式。例如,某些账号可能存在相似的行为模式,或不同账号之间的关联性异常,这些都可以通过图算法识别出来。

平台分析模块中,提供了快速构建图谱规则和指标定义的能力,可以快速将各类业务逻辑进行转换,并基于规则对指标进行计算分析。

更进一步,图数据库还可以应用社区检测算法。通过客户关系、转账 IP、设备号、联系电话等多个维度,将客户划分为多个社群,并计算各个社群之间的关联强度。通过这些社群指标,能够有效挖掘可疑个体,提升风控规则的覆盖率和准确性。

02

LLM 基于图可以做什么?

随着人工智能技术的不断发展,大模型在多个领域的应用逐渐显现出强大的潜力。对于图数据库而言,如何将大模型与图数据库结合,成为进一步提升查询能力和决策支持的关键。

一方面,基于图数据库的图结构,可以作为输入提供给大模型,使大模型具备理解和操作图的能力。另一方面,利用大模型,可以在图数据库上执行更加智能的查询,并进行深度分析。

1. Text to GQL

最直接的一个应用方式就是 Text to GQL。目前,利用大模型的代码生成能力,已经有很多成熟的 Text to SQL 应用。过去图数据库查询没有统一的语言,现在有了 ISO GQL,通过标准 GQL 数据的累积,可以训练大模型,使其能够提供 Text to GQL 的能力,从而实现直接使用自然语言进行图数据库查询。在当前 Text to GQL 能力不足的情况下,可以利用规则对代码进行校正,以提高准确率。

2. 让 Agent 理解图谱

进一步,大模型要能够理解从图数据库读取到的数据。读取到的点边关系,可以序列化为 text,输入大模型,再加上一些 prompt 提示大模型其语义,以便大模型更好地理解数据。

3. Chain of Exploration 探索链

结合查询和理解图的能力,就可以构成一个“探索链”(Chain of Exploration)。大模型可以通过制定探索计划,逐步执行查询任务,形成一个闭环。具体来说,首先,大模型会根据给定的任务,制定查询计划,确定查询的子图或路径;然后,大模型执行查询,获取结果,并进一步分析这些结果。基于这些分析,模型可以继续调整查询策略,直到达到预期目标。

这种方法不仅仅是单次查询的执行,更是一个持续优化和反馈的过程,形成了一个智能化的查询与决策链条。通过不断的迭代,图数据库能够与大模型结合,实现更高效、更智能的查询和数据分析。

4. 从非结构化数据到半结构化知识图谱

除了结构化数据,对于非结构化数据(如文本、图片、音频等),也可以提取成知识图谱的形式,再利用结构化查询的能力进行查询。

通过文本抽取技术,可以将文本数据转化为 三元组 (如 "Harry Potter", "has parents", "James Potter"),这是最基本的知识图谱表示方式。这样的三元组可以通过图数据库进行存储和查询,以便提取出其中的关系和实体。

然而,对于一些复杂的场景,不仅是简单的三元组,还需要考虑节点和边的类型,以及附带的时间、位置等属性。这就产生了半结构化知识图谱的概念,即图谱中的数据虽然大部分还是来自于文本,但它已经包含了某些结构化的信息,例如时间戳、实体类型等。例如,“Harry Potter”可能有多个类型的关联(Person、Location、Book 等),而这些关系和属性可以帮助在查询时进行过滤。

这种半结构化知识图谱不仅能够表示实体及其关系,还能通过带有时间、地点等属性的附加信息来进行更复杂的查询。例如,在风控场景下,我们可以根据时间区间或地点限制来查询某些特定行为是否发生过,从而提高查询精度。

构建图谱类型可以按两个维度划分为四个区间,如上图所示。一个维度是领域特定型或通用型,领域特定指的是有明确的点边类型,而通用则是无明确类型,介于两者之间也有一些半结构化的类型,比如带有类型和属性,但主要信息在文本中。另一个维度是分析型或知识型,分析型是利用大模型生成 GQL 查询语句,获得结构化的查询结果;而知识型更注重总结查询结果的能力,以自然语言的形式给出总结报告。

5. 图谱的分层管理

在 NebulaGraph 中可以实现图谱的分层管理。如上图中所示,红色点为 Harry Potter 小说,黄色点是由小说切分出的 text 片段,绿色点是基于黄色点的片段中抽取出来的知识图谱,最后蓝色点是从知识图谱中获取的一些结构化的洞见。

这里得到蓝色点采用的方法是微软的 From Local to Global 的方法。该方法是在知识图谱上,通过社区检测划分出不同的社区,进行分层总结,从而在半结构化知识图谱中隐式地提取出图结构信息。

NebulaGraph 作为一款数据库,还需要提供数据库相关操作和管理的能力。在 NebulaGraph 上,可以实现元数据、原始数据、索引、知识图谱、知识报告的统一存储、统一管理。例如,黄色点这些文本 chunks 中带有 embedding 信息,可以进行向量检索,实现传统 RAG;在绿色点上,可以做 Text to GQL,实现知识图谱的查询;而在蓝色点上进行向量检索,则可以获得经过总结的具有全局视野的结果。

除了查询方面的能力,基于统一存储,还可以实现便捷的增删改操作。例如,如果需要删除某个节点,可以同时删除与之相关的边和子图,从而保证数据的一致性和完整性。

03

NebulaGraphRAG 应用平台和开发者 SDK

最后,介绍一下 NebulaGraphRAG 应用平台和开发者 SDK。

NebulaGraphRAG 应用平台,是类似于传统 RAG 的基于图谱的问答系统。当然,我们也意识到问答形式的局限性,因此也在考虑扩展更多交互形式,提升系统的灵活性和用户体验。

图数据库与 RAG 结合的优势在于,不仅能够进行结构化的数据查询,还能够支持更复杂的全局性分析和推理。通过 GraphRAG 的支撑,能够为用户提供更加丰富的信息处理能力。

未来,系统会在已有的结构化图谱基础上,进一步扩展功能,使其能够支持智能分析。具体而言,利用 Agent 技术来调用规则库,可以自动化处理复杂的业务规则,并根据查询结果做出相应的推理和决策,从而进一步提升风控和其他业务分析的智能化水平。同时,Graph 与交互系统的深度集成将由开发者工具 SDK 提供全面支持,确保开发者可以在平台上高效构建自己的应用。

04

问答环节

Q1 :前端集成 LLM 和 Agent 功能

是否考虑将 LLM 或 Agent 功能集成到前端界面,如 explorer 工具中,以便提升用户体验。

A1:目前有可能实现这种集成,尤其是在 explorer 工具中,作为前端的一个载体,便于展示和使用 LLM 及 Agent 功能。

Q2 :GraphRAG 的成本和效益

GraphRAG 如何解决成本问题,特别是在与传统向量嵌入(Vector Embedding)方法的比较下,是否更具优势。

A2:GraphRAG 并不完全取代传统向量嵌入,而是作为一种增强手段,特别是在结构化查询能力和全局性问题的解决上有独特优势。通过构建知识图谱和社区报告(community report),GraphRAG 能够有效处理复杂的关系和全局性问题,其 构建过程可能较为昂贵,但查询成本相对较低。此外,可以通过延迟构建和选择较小的模型来优化成本,平衡效果和性能。

Q3 :构建社区报告的成本优化

构建多个社区报告时,如何避免频繁的 API 调用和数据更新带来的高成本。

A3:为了减少成本,可以采用“懒加载”策略,在真正需要时才生成社区报告。此外,对于数据更新所需的整个图重建问题,可以通过量化数据失效的程度来降低重建频率。例如,当图中的数据失效程度低于一定阈值时,可以容忍其不重建,降低系统负担。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


余毅航







请到「今天看啥」查看全文