专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  本文提出一种名为 IGNN-Solver ... ·  昨天  
爱可可-爱生活  ·  【CuiCui:一个开源的动画组件库,使用R ... ·  昨天  
爱可可-爱生活  ·  几篇论文实现代码:《Generalizabl ... ·  2 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(10.9)》 ... ·  6 天前  
51好读  ›  专栏  ›  黄建同学

RAG里的分块非常重要,分块影响了RAG检索出来的块的内容,分块-20241012172131

黄建同学  · 微博  · AI  · 2024-10-12 17:21

正文

2024-10-12 17:21

RAG里的分块非常重要,分块影响了RAG检索出来的块的内容,分块不正确容易导致上下文信息丢失,而影响了LLM回答的质量。 #程序员##rag#

于是有种技术叫Late Chunking (后期分块)↓这是一种改进长上下文嵌入模型中上下文保存的技术。

> 传统的分块方法通常用于检索增强生成 (RAG),在将长文本分成较小的块时可能会丢失关键的上下文。

> 后期分块首先处理整个文本,然后生成块嵌入,从而保持跨块的上下文。这种方法通过保留分散在多个文本段中的信息,提高了检索准确性,尤其是对于较长的文档。

论文:arxiv.org/abs/2409.04701
Blog:
Part I. jina.ai/news/late-chunking-in-long-context-embedding-models/
Part II. jina.ai/news/what-late-chunking-really-is-and-what-its-not-part-ii/

ChatGPT