专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
恶魔奶爸  ·  怎么感觉春节后裁员越来越严重了。。。 ·  2 天前  
广东信息通信业  ·  广东省通信管理局召开2025年非应邀商业电子 ... ·  2 天前  
广东信息通信业  ·  广东省通信管理局召开2025年非应邀商业电子 ... ·  2 天前  
BetterRead  ·  瞧,这个人讲信仰 ·  3 天前  
英文悦读  ·  马斯克给自家大模型取名Grok,妙在哪里? ·  5 天前  
英文悦读  ·  怎样才能有效提升口语水平? ·  6 天前  
51好读  ›  专栏  ›  DataFunSummit

图数据库不等于知识图谱

DataFunSummit  · 公众号  ·  · 2024-03-15 17:26

正文

知识图谱一直以来面临着构建复杂度高,也就是构建成本高的问题,很难有一套统一规范的构建框架,解决所有知识构建问题。根源在于数据层面,大部分知识的表达都是偏自然语言的,知识表达方式非常多元化和不规范。
所以在该领域,面对大模型的来势汹汹,才会发出“知识图谱要完”的声音。
但从目前知识图谱领域专家的经验来看,大模型自身目前是无法解决幻觉、时效性、事实性、多跳推理等问题的,所以也没有办法一劳永逸地解决知识图谱构建的问题。
从应用场景的结构化程度来看,比如在风控场景中,对于风险团伙的表示,用文本表达是看不懂的。目前业界对于大模型能否代替风控的核心能力没有怀疑,就是不行。因此,面向高度结构化的决策场景,大模型还不能胜任,但知识图谱可以在其中发挥很大作用。
知识图谱目前最大的难题在于不统一。知识图谱的语义规范是很陈旧的,从最早的语义网开始算,已经有几十年的发展时间,如果从以知识图谱的名字命名,则是从2012年由谷歌提出,到现在也有十几年的时间。
在这很长的发展时间内,知识图谱发展出了很多概念,比如静态图谱、动态图谱、实体图谱、概念图谱、事件图谱、事理图谱、时序图谱、多模态图谱、因果图谱等等。可以说每个人心中都有一种图谱,每种图谱都有自己的定义表示方式。
虽然知识图谱早期有一套语义网框架,比如RDF、OWL等等,但它们在工业界并没有落地,因此人们是基于属性来存储知识图谱的,也就是目前的图数据库。
但图数据库和知识图谱之间还是有差距的。图数据库只是一种数据存储的形式,没有语义,导致每家定义的知识图谱都不一样,这些知识图谱之间不能做数据交换,因为协议差异很大。
所以,在未来,一套新的、统一的、能融合到工业界场景中的知识图谱语义框架会是非常重要的一步,相关技术理论涉及到,关键语义能力的定义,构建一套标准的知识构建链路,融合不同推理引擎,比如专家规则推理、图表示学习推理等等。
当然最重要的一步,还是与大模型的融合,目前还有很多的困难。

在基于大模型构建知识图谱的实践中发现,幻觉会导致生成的知识图谱有很多噪声需要清洗,多元化数据的知识抽取则需要大小模型协同来做知识构建,最后就是大模型时代的知识表示需要进一步迭代,当前领域内最好的框架也都是非大模型时代的产物,相关的语义表示需要变得对大模型更加友好。
统一规范的知识图谱的实现,需要在深入融合大模型之后,才能构建出完整的形态,而这还有很长的路要走。
为深入探讨知识图谱与大模型的现状和未来发展,DataFunSummit2024:知识图谱在线峰会将于2024年3月23日9:00-17:00线上举办,欢迎广大从业者参与交流!

峰会议程




峰会详情




① 知识获取与构建论坛

出品人:张亦弛 Shopee Marketplace Intelligence Listing Team Leader

个人介绍:张亦弛,现任电商平台 Shopee Marketplace Intelligence Listing 商品算法负责人,服务全球十余个市场的商品智能化识别,工作研究方向为电商领域知识图谱构建、自然语言处理和多模态技术在电商业务中的应用等。毕业于伦敦大学,学术论文曾发表在 BMVC / EMNLP / WSDM / CVPR 等国内外会议和期刊,出版专著一部。

张文 浙江大学 特聘研究员

个人介绍:张文,浙江大学软件学院特聘研究员,研究方向为知识图谱、图数据处理、大数据系统。在包括NeurIPS/KDD/WWW/IJCAI/AAAI/ICDE/ACM MM/WSDM等在内的国际顶级会议上发表多篇论文。主持国家自然科学基金青年科学基金项目、浙江省自然科学基金探索青年项目、宁波市自然科学基金探索一般项目。曾获国际知识图谱联合会议IJCKG最佳论文奖、最佳应用论文奖,浙江省科技进步二等奖等奖励。入选副省级市高层次人才引进计划、百度2023年度AI华人女性青年学者榜。

演讲题目:大语言模型与知识图谱:机会与挑战

演讲提纲:大语言模型实现了基于参数的隐式知识表示,这使得显式的知识表示方法逐渐向混合了符号化和参数化的表示方法迁移,本报告将从知识表示的视角介绍和讨论一些知识图谱和大语言模型融合的辩论点、机会、挑战、和研究点。

听众收益:

1. 知识计算社区针对大语言模型和知识图谱结合的辩论点

2. 语言模型和知识图谱结合的机会与展望

3. 语言模型和知识图谱结合关键研究点和相关挑战

郑鑫 Shopee MPI&D Senior Expert Engineer

个人介绍:郑鑫,南洋理工大学(NTU)计算机博士,有多篇一作论文发表在WWW/ EMNLP / CIKM / TKDE 等顶会和期刊,2项US专利。现任Shopee Marketplace Intelligence and Data 团队 Senior Expert Enginner,参与或负责众多Listing 基础数据建设及相关toB、toC的数据应用,如Global Category、 SPU、比价系统等,有多语言自然语言处理、多模态模型及知识图谱构建等经验。

演讲题目:电商知识图谱建设及大模型应用探索

演讲提纲:

1. 知识图谱概览

2. 电商知识图谱构建

3. 电商知识图谱应用

4. 大模型与知识图谱探索及展望

听众收益:

1. 电商知识图谱建设基本框架

2. 知识图谱在电商领域应用

3. 电商知识图谱与大模型的结合点

扫码报名免费观看直播

② 知识增强与推理论坛

出品人:王文广 达观数据 创新产品部 副总裁

个人介绍:高级工程师职称,浦东新区“明珠计划”菁英人才,曾获得广东省科技进步奖二等奖,上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家,《知识图谱:认知智能理论与实战》作者,参与编撰《智能文本处理实战》,《新程序员 * 人工智能新十年》顾问专家和文章作者,专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。上海市人工智能技术标准化委员会委员、上海科委评审专家、中国计算机学会(CCF)高级会员、中文信息学会(CIPS)语言与知识计算专委会委员、中国人工智能学会(CAAI)深度学习专委会委员。申请有数十项人工智能领域的国家发明专利,在国内外知名期刊会议上发表有十多篇学术论文。曾带队获得国内国际顶尖算法竞赛 ACM KDD CUP、EMI Hackathon、“中国法研杯”法律智能竞赛、CCKS 知识图谱评测的冠亚季军成绩。曾获 BroadView2023“技术成长领路人”、2022 年度电子工业出版社博文观点“优秀作者”等称号,2021 年度浦东职工科技创新英才优秀奖。被聘为上海市质量和标准化研究院培训中心企业标准化总监高级研修班教课讲师,高校学生人工智能训练营(同济大学)特邀企业导师,浙江大学中国数字贸易大讲堂讲师团专家。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化,以 OCR、文档智能处理、知识图谱、RPA 等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。

杨成 北京邮电大学副教授

个人介绍:杨成,北京邮电大学副教授,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文30余篇,谷歌学术被引九千余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。曾获中文信息学会优秀博士论文奖,先后入选百度发布的首届“AI华人青年学者百强” 榜单、第九届中国科协“青年人才托举工程”。

演讲题目:面向开放任务场景的图模型与大语言模型对齐

演讲提纲:ChatGPT等大语言模型展示了强大的零样本学习和指令跟随能力,可以有效服务于由自然语言描述的各类开放式任务。然而在图结构数据的分析领域,图神经网络等图模型受限于节点分类、链接预测等预定义形式的任务,如何适应更加通用的开放任务场景仍亟待探索。为此,我们提出了GraphTranslator来连接预训练好的图模型和大语言模型,其中图模型负责预定义任务,大语言模型作为图模型的扩展接口来处理各种开放式任务。为了训练GraphTranslator,我们设计了一个能够自动构建节点-文本对齐数据的Producer,对齐数据中包括节点信息、邻居信息和模型信息。通过将节点表示翻译成token,GraphTranslator赋予了大语言模型根据语言指令进行预测的能力,为预定义和开放式任务提供了统一的解决方案。

听众收益:

如何面向图数据分析场景使用大语言模型?

图神经网络模型如何与大语言模型相结合?

郑志彤 OPPO AI中心大模型算法部 首席算法架构师

个人介绍:现任AI中心大模型算法部首席算法架构师,曾任数智系统机器学习TMG主任和小布多模态负责人。2020年加入OPPO,参加软件商店首页攻坚,贡献2个多点ARPU值提升,当年指标超越头条;随后负责机器学习部,负责并完成了StarFire项目,构建了云原生机器学习平台和部门架构;之后调入小布智能中心,负责多模态学习,短时间搭建了多模态预训练团队、虚拟人团队和StarLite团队,完成了小布AIGC等项目;在AI中心,主导了codeLLM和dataLLM的研发,参与了RAG项目研发,其中code和data指标达到SOTA。在机器学习相关领域有十几年的经验,对CV、NLP、语音、推荐系统、大模型和多模态等算法有深刻认知和实践,十分关注通用智能的发展并有一套自己的理论。学历硕士,毕业于清华大学。

演讲题目:codeLLM和RAG技术在OPPO的探索

演讲提纲:

1. LLM的缺陷与领域知识。

2. codeLLM与dataLLM技术创新。

3. RAG技术落地。

4. 展望LLM与符号化知识的结合。

听众收益:

1. 如何训练好的codeLLM;

2. codeLLM如何落地到业务场景;

3. RAG如何落地到实时信息等场景。

刘孟洋 腾讯TEG 算法工程师

个人介绍:香港城市大学博士学位,腾讯高级算法工程师,5年计算机视觉从业经验,现从事文生视频算法研究工作。研究方向包括视频生成,图像生成,多模态,视频表征学习,大规模视频检索系统等。曾参与构建十亿级视觉检索系统,服务于视频去重,版权保护等。

演讲题目:扩散模型与文生视频

演讲提纲:近年来扩散模型在视觉生成领域大放异彩,跨模态对齐技术让文本控制生成成为可能,文生图以及文生视频领域迎来飞速发展。本次分享将主要介绍文生视频近期的主流方法,以及我们在画质提高、语义一致提升上的一些探索。同时也会介绍一些有趣的应用实践,以及一些可能并不会太长期的展望。

听众收益:

1. 如何用扩散模型实现文本控制生成?

2. 如何提高生成内容和文本的语义一致性?

3. 除了文本还能用什么控制生成呢?

4. 知识图谱如何提升文生视频?

扫码报名免费观看直播

③ 大规模知识存储与计算

出品人:曾立 华为 GTS—AI算法部 数据智能计算专家

个人介绍:本科和博士毕业于北京大学计算机科学技术专业,在图处理领域有九年多的实践经验,主导研发过图数据库系统gStore、电信图查询引擎、分布式图学习加速组件,将亿级电信网络的图查询和图学习性能提升至行业标杆TigerGraph和DGL的2倍以上,内存占用降低一半。当前负责图技术探索及大模型全栈加速。

范志东 蚂蚁集团 图计算开源负责人

个人介绍:蚂蚁图计算开源负责人,专注于TuGraph的开源技术演进、社区运营和商业化等工作。先后就职于腾讯、阿里云、蚂蚁,从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历,目前专注于TuGraph的开源建设与技术合作。

演讲题目:蚂蚁TuGraph计算引擎技术架构与应用

演讲提纲:

● 蚂蚁TuGraph计算引擎发展历程与建设背景。

● TuGraph计算引擎的架构设计与技术原理。

● TuGraph计算引擎的应用场景与建设规划。

听众收益:

● TuGraph图计算引擎的设计、实现和应用价值。

● 如何实现流计算、批处理、图计算一体化执行能力。

● 大规模图计算的典型应用场景与未来思考。

曾维彬 阿里巴巴 高级开发工程师

个人介绍:北京航空航天大学计算机硕士,目前在阿里巴巴通义实验室任高级开发工程师,负责一站式图系统 GraphScope 和 图数据存档格式 GraphAr 的开发。

演讲题目:GraphAr: 开源的标准化图存储文件格式

演讲提纲:本次演讲主要介绍标准化图存储文件格式GraphAr的设计和特性,当前开源社区的发展以及在图数据和知识图谱场景下的应用前景

1. 背景:图计算的生态和文件存储

介绍GraphAr设计的背景和Motivation

2. 标准化图存储文件格式GraphAr

- 设计与特性

- 对比其他格式的优点(一些性能对比)

3. GraphAr 的应用与开源社区发展

4. GraphAr 在知识图谱下的应用前景

听众收益:

1. 了解大数据场景下图数据和知识图谱数据的存储

2. 专门用于大规模图数据和知识图谱数据的标准文件格式是什么样的?

3. 了解如何高效地提升数据湖中图查询的能力

扫码报名免费观看直播

④ 知识问答与检索论坛

出品人:刘焕勇 360人工智能研究院 资深算法专家

个人介绍:360 人工智能研究院资深算法专家、知识图谱方向负责人,“老刘说 NLP”公众号作者,曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与知识增强、领域知识/事件图谱的构建与落地应用,主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目,申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS 多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享,在 github开源项目60+,收获star数超 2W+。

演讲题目:知识图谱增强在360文档知识问答及管理中的应用实践

演讲提纲:当前,为缓解大模型在特定领域问答场景中的幻觉问题,检索增强生成(RAG)作为一种外挂输入的范式受到广泛关注。本文主要介绍360文档云在围绕知识管理场景下做的应用实践,涉及到如何对文档进行标准化、层次化、结构化等处理操作;如何较好地召回知识库输入到大模型;如何将知识图谱纳入到回复的逻辑以提升等多个方面的内容。

1、360文档云在知识管理/问答中应用场景

2、知识图谱在文档标准化、层次化、结构化中的应用

3、知识图谱在文档知识检索增强问答中的应用

4、知识图谱与大模型在文档场景下的挑战及展望

听众收益:

1、了解当前业界在文档云盘场景下的一些落地经验;

2、了解知识图谱在文档问答/管理场景中的一些技术坑点;

3、了解知识图谱增强大模型的一些现实问题及挑战;

杜振东 云问科技 NLP研究院算法负责人

个人介绍:云问科技NLP研究院负责人,拥有8年机器学习与文本挖掘相关技术经验,6年中文自然语言处理相关项目实战经验,擅长运用NLP前沿技术解决真实项目。在意图识别、新闻推荐、多轮人机交互领域有数年实战经验。参与百万级用户金融资讯新闻推荐项目,作为算法主要负责人及整体框架设计者,主导全新智能新闻推荐系统的落地,并优化线上推荐算法,整体线上相较原有系统精度提高10%。主要设计面向任务驱动的多轮对话引擎,主导参与搭建NLP底层能力平台,为企业提供底层能力的服务输出。参与多家企业问答机器人系统、知识图谱系统搭建,针对集团型知识管理与问答效果优化有丰富实战经验。参与制定国家人工智能标准化总体组《人工智能标准化与开源研究报告》;参与制定中国电子工业标准化技术协会《信息技术 人工智能 智能助理智能能力等级评估》;编写书籍《会话式AI》与《ChatGPT原理与实战》;入选国家标准委人工智能专家及AIIA人工智能技术专家。

演讲题目:工业知识图谱进阶实战

演讲提纲:介绍图谱前沿知识如何在工业应用场景落地。

听众收益:

1.工业图谱schema如何设计

2.三元组无法支撑的业务场景如何支撑

3.LLM与KG的结合方式

鄂海红 北京邮电大学 计算机学院(国家示范性软件学院) 北京邮电大学教授,博士生导师,教育部信息网络工程研究中心副主任

个人介绍:鄂海红,北京邮电大学教授,博士生导师,教育部信息网络工程研究中心副主任,中国科学技术情报学会科研诚信建设工作委员会副主任委员,中国计算机学会数据治理发展委员会执行委员。主要研究知识图谱与大模型协同的数据要素治理和复杂推理决策。累计主持国家重点研发计划课题、国家自然科学基金项目以及省部级课题、企事业合作项目30余项。累计发表EI/SCI高水平学术论文100余篇,获国家发明专利授权81项,专利许可实施21项。科技创新成果已在医疗健康、科技服务、金融、政务等多个行业实现规模化商用,超关系层次化知识图谱构建、推理与问答技术在多家医院临床决策支持系统(CDSS)落地应用,获聘北京市昌平区首批“科技副总”,荣获中国商业联合会中国服务业创新奖特等奖,教育部高等学校科学研究优秀成果奖进步奖二等奖,中国计算机学会科技成果奖技术发明一等奖,中国通信标准化协会科学技术奖三等奖。

演讲题目:大模型时代知识图谱赋能高血压智能诊疗实践

演讲提纲:数据是信息的来源,信息是知识的载体,知识是智能的根本。大模型时代,知识图谱与大模型的互补融合为解决垂直领域复杂决策问题打开了新的思路,为垂域AI的实现提供了更好的智能基座。本报告介绍了知识图谱构建、推理与问答技术在高血压智能诊疗场景的一些探索与实践,首先以精准用药决策问题为例阐明了高血压诊疗的本质是基于知识的复杂决策任务,并介绍了当前医学与通用大模型在该问题上的局限与不足。然后从知识图谱建模、推理与问答三个方面递进讲解超关系层次化知识建模、神经符号精准推理与大模型驱动的可解释智能问答相关工作,有效提升高血压智能诊疗的科学性、精准性与可解释性。最后,介绍了相关技术在临床决策支持系统(CDSS)等场景的落地应用情况,并探讨LLM+KG在知识图谱构建、推理与问答方向的可能路径。

听众收益:

1.如何构建高质量的垂直领域知识图谱?

2.知识图谱推理技术如何支撑医学领域复杂决策任务?

3.大模型如何赋能知识图谱问答?

王为磊 智慧芽 研发部 搜索与算法总监、首席科学家

个人介绍:目前在智慧芽信息科技(苏州)有限公司任职搜索与算法总监,首席科学家。曾经获得过姑苏高层次人才,苏州园区紧缺人才等;发表国际核刊论文10多篇,专利30余篇,曾参与研发了国家火炬计划一项,主持国家科研项目一项,江苏科技计划项目一项,苏州重点产业科技创新等多个项目。目前主攻:专利情报挖掘,专利搜索,基于大模型的专利理解与生成等方向。目前研发的基于1.8亿专利文本为主的专利大模型(PatentGPT),在专利撰写、专利对比等产品里得到应用,取得客户高度认可,针对专利大模型,2023 受邀参加世界人工智能峰会,做“专利大模型的实践与探索”主题报告;受邀参加“中国2023知识产权年会”, 做“专利大模型在知识产权的应用”主题报告。

演讲题目:专利大模型的实践与知识问答探索

演讲提纲:

1. 专利大模型介绍

2. 专利大模型的训练过程

3. 结合RAG的实践

听众收益:

1.垂直大模型必要吗?一般是如何训练的。

2. 结合RAG能解决什么问题

3. RAG的核心点是什么?为什么perplexity.ai会围绕这个来做。

扫码报名免费观看直播

⑤ 大模型与知识图谱论坛

出品人:孙常龙 阿里巴巴资深算法专家

个人介绍:孙常龙,阿里巴巴通义实验室NLP应用算法负责人,拥有多篇授权专利,在顶级会议发表论文30余篇,承担国家科技部重点研发项目多项,带领团队在多项的国内外评测比赛中获得第一名,曾获高等学校科学研究优秀成果奖(科学技术)科技进步一等奖。研究方向包括机器学习、自然语言理解、文档理解等。在技术赋能业务方面,深入司法、通信、互联网等垂直领域的智能化建设,首创了司法全流程智能化审判系统,该智审模式2022年纳入社科院《法制蓝皮书》,构建了法律垂直大模型通义法睿,已经落地多家法院。

孙佩霞 中国电信研究院 AI研发中心 智行云网大脑技术负责人

个人介绍:主要负责网络运营知识图谱建设,图谱检索,推荐,对话机器人,网络运营大模型相关技术架构。参与过IEEE P2807知识图谱国际标准撰写。国家知识图谱标准撰写,AIIA大模型,智能决策标准撰写。

演讲题目:网络大模型与知识图谱在网络运营中的结合应用

演讲提纲:介绍电信网络运维领域事件知识图谱构建,知识图谱检索推荐,知识交互等应用。

1电信网络运营场景介绍。

2网络大模型的介绍。

3网络大模型与知识图谱结合应用。

4展望。

听众收益:

靓点1:通过网络大模型在网络运营中应用,提升网络自智等级。

靓点2:网络大模型与知识图谱结合提升智能化水平。

陈玉博 中国科学院自动化研究所 副研究员

个人介绍:陈玉博,中科院自动化所副研究员,研究方向为自然语言处理和知识图谱,在ACL、EMNLP、AAAI 等国际重要会议和期刊发表学术论文40 余篇,Google Scholar引用量5200余次,其中两篇论文入选ACL、EMNLP高影响力论文(Paper Digest评选),获ISWC 2023(CCF-B类)最佳张贴论文奖。出版学术专著两部《知识图谱》、《知识图谱:算法与实践》,由人工智能学会推荐入选十三五国家重点图书出版规划教材。连续多年在中国科学院大学主讲《知识图谱》课程,2021 年获得中国科学院大学优秀课程。主持国家自然科学基金面上项目、青年基金项目,参与国家自然科学基金重点项目、2030新一代人工智能重大项目、重点研发计划课题。主持研发的信息抽取和知识图谱构建系统多次获得国际/国内学术评测冠亚军。入选2020 年第五届中国科协青年人才托举工程、2022 年百度全球华人AI 青年学者、2022 年中国科学院青年创新促进会会员、担任中国中文信息学会青年工作委员会秘书长、COLING 2022领域主席、Data Intelligence编委等。获2018 年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖,2019 年度北京市科学技术进步奖一等奖。






请到「今天看啥」查看全文