专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
最红安  ·  正大量上市,有人吃进急诊! ·  昨天  
最红安  ·  正大量上市,有人吃进急诊! ·  昨天  
白银区市场监管  ·  开学季,这些传染病高发!注意!注意!注意! ·  昨天  
艾儿天空  ·  阅文2024年会将于2月28号在新加坡圣淘沙 ... ·  3 天前  
51好读  ›  专栏  ›  DataFunTalk

京东零售基于大模型的生成式检索技术实践

DataFunTalk  · 公众号  ·  · 2024-09-08 13:00

正文

在当今快速发展的信息检索领域,搜寻与推荐系统的召回机制扮演着至关重要的角色。
当前行业内主要依赖 KNN 算法来实现召回任务,但这一传统模型面临着诸多挑战。由于缺乏有效的交互机制,KNN 模型对于处理中长尾查询效果不佳;同时,它在索引构建和更新时损失巨大,也导致了存储和更新成本高昂。

为了克服这些挑战,生成式检索模型应运而生,它优化了召回范式,通过端到端的隐式交互方法,提高了检索的准确性。然而,生成式检索也有其固有缺点,如生成过程的计算成本较高,幻觉率高、以及可能产生与查询不相关的结果。

在此背景下,京东零售团队探索了 Lexical 方法,通过重新定义任务、采用 SFT、对齐(DPO)和约束生成,来提升结果的相关性和性能。

接着团队又引入了 SemanticID,用来加速推理过程并减轻索引负担。SemanticID 的生成依赖于结合了 SFT 和 DPO 的推理结果,形成了一个新的检索链路,并服务于大型电商平台,取得了显著收益。

Datafun 有幸邀请到了来自京东零售搜索算法团队的算法工程师王彗木和寒退之老师,两位老师将在 DataFunSummit2024: 生成式 AI 技术峰会的【AI 前沿技术与应用】论坛上系统性分享当前信息检索的挑战,生成式检索的创新设计,以及 Lexical 方法和 SemanticID 的技术架构创新和落地实践。希望能为大家带来启发。

感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:

除了 AI 前沿技术与应用论坛,我们依然关注 Agent、多模态大模型、大模型训练推理、RAG 应用与探索等方向的技术突破和落地实践,更有 AI4Science 等技术前沿相关的分享。






请到「今天看啥」查看全文