CCF TF第131期“知识图谱之检索增强技术”由CCF TF知识图谱SIG主席王昊奋主持。在活动介绍中,王昊奋对CCF TF的组织结构、宗旨以及往期的活动作出了介绍。
360人工智能研究院资深算法专家刘焕勇
分享了RAG技术在360落地以及企业级知识库建设实践。分享首先介绍了知识问答任务的特点与文档智能的应用场景,分析了RAG问答的标流程。其次,针对RAG流程中的各个环节,深入剖析了其中的困难和瓶颈:版面复杂多样,内容复杂、组织多样、多因素影响内容召回效果、有监督样本构造困难,提出了引入文档智能方法加大知识库建设。最后具体介绍了知识库体系建设方法,包括对文档层级进行抽取按层级、标签建库、文档多模态模型KOSMOS、文档特定板式以及表格、公式和图表信息的抽取。
腾讯AI Lab 高级研究员蔡登
分享了在检索增强模型上的相关研究,该分享介绍检索与生成的融合范式。首先回顾了当前生成式的模型机理,随后介绍了CoG方法的原理,将检索和生成的过程融合,在从左往右的生成的过程中,从记忆库检索相关的词组(Phrase)代替当前主流生成模型中预测一下个词元(token)的范式。并将CoG方法在多个下游任务上进行了验证,展示出了比基线更好的准确性、可解释性以及可扩展性。
《GTE-Embedding/Ranking:统一文本表示与排序模型》
阿里巴巴通义实验室算法工程师张延钊
分享了在统一文本表示与排序模型的研究工作。该分享梳理了
Embedding模型的发展路径,着重介绍了GTE-Embedding模型
的训练过程。首先在预训练阶段复用LLM训练、优化技术,多语言/长文本支持的Encoder-Only底座;其次通过弱监督预训练提升基础模型的文本表示能力;然后在高质量监督数据下再次进行训练。随后张延钊介绍了GTE-Rerank模型的技术细节,包括训练流程与损失函数设计,最后针对当前RAG与长下文LLM的对比进行了深入探讨。
网易有道技术总监林辉
分享了网易有道开源RAG引擎QAnything以及RAG落地经验。该分享首先回顾了网易有道在
OCR和NMT技术上的积累以及QAnything
的演化史,相关技术与产品快速迭代,技术经历了从图片翻译、文档翻译、到基于大模型的输入+理解。任务以及从文档问答到话术助手、有道速读、AI升学规划师以及小P老师的快速演变。随后林辉重点介绍了QAything的关键模块
(文档解析、Embedding/Rerank、LLM以及VectorDB)和主要流程(Query理
解、搜索、相关性排序以及LLM生成)。最后林辉聚焦了RAG的落地场景,深入分析了RAG流程中的多个关键问题,例如RAG对比微调,以及RAG对比长下文的语言模型。
互动环节,刘焕勇和林辉针对当前开源的RAG框架进行分析和汇总,指出了当前框架的更多是求同存异,在发展初期存在相似性后期会更多的有差异化,蔡登针对CoG方法在大规模数据上的Phrase构建效率的方法进行了深入回答。张延钊解答了大语言模型能否在保持模型生成能力的同时也能做embedding。最后,各位专家共同探讨了大模型知识的外挂和知识的内化之间的平衡问题。
王昊奋总结时提到,他认为在大模型时代,知识图谱的已经进入一种更为泛化的研究阶段,不局限于传统的三元组,而知识的管理和利用仍是当下值得研究的重要议题。
期数
|
日期
|
所属
SIG
|
主题
|
形式
|
TF132
|
5
月
16
日
|
架构
|
AI
时
代的云原生架
构
|
线
上
|
TF133
|
5
月
23
日
|
智能前端
|
智能时
代的前端:新生
产
力与新体
验
|
线
上
|
TF134
|
6
月
2
日
|
智能制造
|
大模型在工业
智能中的
应
用
场
景探
讨
|
线
上
|
CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。
欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!