专栏名称: 中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
目录
相关文章推荐
人民日报  ·  别沾边!再萌也不要碰!国家卫健委紧急提醒 ·  12 小时前  
新华社  ·  票房破200亿! ·  昨天  
南都周刊  ·  何小鹏,重磅官宣! ·  昨天  
51好读  ›  专栏  ›  中国计算机学会

知识图谱之检索增强技术 | TF131回顾

中国计算机学会  · 公众号  ·  · 2024-05-13 17:33

正文



5月7日,CCF TF第131期“知识图谱之检索增强技术”以线上会议形式成功举办。本次活动由CCF TF知识图谱SIG策划呈现,邀请了360人工智能研究院、腾讯AI Lab、阿里巴巴通义实验室、网易有道QAnything等互联网企业的中检索增强技术研究负责人,一起围绕知识图谱之检索增强技术话题,分享检索增强技术的前沿发展、知识图谱与检索增强技术融合的机遇与挑战以及典型案例与最佳实践。



CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也将于近日收录,欢迎回顾!



CCF TF第131期“知识图谱之检索增强技术”由CCF TF知识图谱SIG主席王昊奋主持。在活动介绍中,王昊奋对CCF TF的组织结构、宗旨以及往期的活动作出了介绍。


《RAG落地中的文档理解及知识库建设实践》


360人工智能研究院资深算法专家刘焕勇 分享了RAG技术在360落地以及企业级知识库建设实践。分享首先介绍了知识问答任务的特点与文档智能的应用场景,分析了RAG问答的标流程。其次,针对RAG流程中的各个环节,深入剖析了其中的困难和瓶颈:版面复杂多样,内容复杂、组织多样、多因素影响内容召回效果、有监督样本构造困难,提出了引入文档智能方法加大知识库建设。最后具体介绍了知识库体系建设方法,包括对文档层级进行抽取按层级、标签建库、文档多模态模型KOSMOS、文档特定板式以及表格、公式和图表信息的抽取。



《检索增强生成?检索即生成!》


腾讯AI Lab 高级研究员蔡登 分享了在检索增强模型上的相关研究,该分享介绍检索与生成的融合范式。首先回顾了当前生成式的模型机理,随后介绍了CoG方法的原理,将检索和生成的过程融合,在从左往右的生成的过程中,从记忆库检索相关的词组(Phrase)代替当前主流生成模型中预测一下个词元(token)的范式。并将CoG方法在多个下游任务上进行了验证,展示出了比基线更好的准确性、可解释性以及可扩展性。


《GTE-Embedding/Ranking:统一文本表示与排序模型》


阿里巴巴通义实验室算法工程师张延钊 分享了在统一文本表示与排序模型的研究工作。该分享梳理了 Embedding模型的发展路径,着重介绍了GTE-Embedding模型 的训练过程。首先在预训练阶段复用LLM训练、优化技术,多语言/长文本支持的Encoder-Only底座;其次通过弱监督预训练提升基础模型的文本表示能力;然后在高质量监督数据下再次进行训练。随后张延钊介绍了GTE-Rerank模型的技术细节,包括训练流程与损失函数设计,最后针对当前RAG与长下文LLM的对比进行了深入探讨。


《有道QAnything的落地经验分享》


网易有道技术总监林辉 分享了网易有道开源RAG引擎QAnything以及RAG落地经验。该分享首先回顾了网易有道在 OCR和NMT技术上的积累以及QAnything 的演化史,相关技术与产品快速迭代,技术经历了从图片翻译、文档翻译、到基于大模型的输入+理解。任务以及从文档问答到话术助手、有道速读、AI升学规划师以及小P老师的快速演变。随后林辉重点介绍了QAything的关键模块 (文档解析、Embedding/Rerank、LLM以及VectorDB)和主要流程(Query理 解、搜索、相关性排序以及LLM生成)。最后林辉聚焦了RAG的落地场景,深入分析了RAG流程中的多个关键问题,例如RAG对比微调,以及RAG对比长下文的语言模型。



互动环节,刘焕勇和林辉针对当前开源的RAG框架进行分析和汇总,指出了当前框架的更多是求同存异,在发展初期存在相似性后期会更多的有差异化,蔡登针对CoG方法在大规模数据上的Phrase构建效率的方法进行了深入回答。张延钊解答了大语言模型能否在保持模型生成能力的同时也能做embedding。最后,各位专家共同探讨了大模型知识的外挂和知识的内化之间的平衡问题。


王昊奋总结时提到,他认为在大模型时代,知识图谱的已经进入一种更为泛化的研究阶段,不局限于传统的三元组,而知识的管理和利用仍是当下值得研究的重要议题。


活动预告




期数

日期

所属 SIG

主题

形式

TF132

5 16

架构

AI 代的云原生架

线

TF133

5 23

智能前端

智能时 代的前端:新生 力与新体

线

TF134

6 2

智能制造

大模型在工业 智能中的 景探

线

关于CCF TF

CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。

加入CCF



加入CCF会员享受更多超值活动,为自己的技术成长做一次好投资。

点击链接了解更多会员权益:

CCF个人会员权益 CCF公司会员权益


识别或扫码入会


欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!








请到「今天看啥」查看全文