本文介绍了五种文本分割器:CharacterTextSplitter、RecursiveCharacterTextSplitter、TokenTextSplitter、MarkdownTextSplitter和LatexTextSplitter,分别从原理、优缺点和适用场景等方面进行了详细分析。文章还提供了实际应用中的最佳实践推荐。
合理的文本分割能显著提高模型的表现。在大模型的输入输出都有有限的情况下,嵌入也有token限制,文本分割成为了一项重要技术。
文章详细描述了五种文本分割器的工作原理、优缺点和适用场景。包括CharacterTextSplitter按字符分割、RecursiveCharacterTextSplitter递归分割、TokenTextSplitter基于词元分割、MarkdownTextSplitter针对Markdown格式文本分割和LatexTextSplitter专为处理LaTeX文档设计。
文章给出了实际应用中的最佳实践推荐,根据文本类型、上下文需求和输出质量,合理选用文本分割方式。
作者|想飞的雪糕
在前端开发大模型应用的时候,处理和分割文本是常见需求,毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的,合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式,本文将对比五种文本分割器:
- RecursiveCharacterTextSplitter
LatexTextSplitter
从原理、优缺点和适用场景等多个维度进行分析,帮助你选出最合适当前续期的文本分割器。
如果你没有阅读过之前的文章,推荐看看:
前端大模型入门(三):编码(Tokenizer)和嵌入(Embedding)解析
以了解本文的作用和文本切割发生时机。
准备好nodejs20+,yarn;
安装依赖"@langchain/textsplitters" 或者 "langchain/text_splitter";
具体的代码实现,可以参考本文绑定的资源,可以在nodejs或者web页面测试。
原理
CharacterTextSplitter通过简单地按字符进行分割。用户可以指定分割的字符数,以便将文本切分为固定长度的片段。
分词示例
这个分割器按字符分割文本,每个chunk包含30个字符,相邻chunk之间有5个字符的重叠。中间可能被截断:
CharacterTextSplitter 结果:
[
Document {
pageContent: '人工智能(AI)是计算机科学的一个分支,致力于创造智能机器。',
},
Document {
pageContent: '智能机器。它已经在多个领域取得了重大突破,如自然语言处理、计',
},
Document {
pageContent: '言处理、计算机视觉和机器学习等。\n\n近年来,深度学习技术的发',
}
]
优缺点
优点:
实现简单,易于理解和使用。
适用于需要快速分割的简单文本场景。
缺点:
无法识别文本中的语义结构,可能导致信息碎片化。
对于长句子或段落,可能会导致上下文缺失。
适用场景
适用于对文本分割要求不高、上下文关系不强的情况,比如简单的日志文件处理或非结构化数据的初步处理。
二、RecursiveCharacterTextSplitter
原理
RecursiveCharacterTextSplitter在CharacterTextSplitter的基础上,使用递归算法来分割文本。首先按指定字符数分割,然后尝试合并相邻的片段,直到满足某些条件。
分词示例
这个分割器递归地分割文本,使用了多个分隔符(换行符、句号、逗号等),每个chunk最多50个字符,相邻chunk之间有10个字符的重叠。
RecursiveCharacterTextSplitter 结果:
[
Document {
pageContent: '人工智能(AI)是计算机科学的一个分支,致力于创造智能机器',
},
Document {
pageContent: '。它已经在多个领域取得了重大突破,如自然语言处理、计算机视觉和机器学习等。',
},
Document {
pageContent: '近年来,深度学习技术的发展使得AI的能力大幅提升',
},
...
]
优缺点
优点:
保留了更多的上下文信息,尤其在长段落中。
更加灵活,适合处理多样化的文本。
缺点:
实现复杂,可能导致性能开销增加。
需要调节更多参数以适应不同文本类型。
适用场景
适用于对上下文保留有较高要求的场景,例如长篇文章或报告的处理。
原理
TokenTextSplitter基于词元(Token)进行分割,通常与语言模型的输入结构相结合。用户可以指定每个片段的最大Token数。
分词示例
这个分割器使用适合中文的cl100k_base编码,每个chunk包含20个token,相邻chunk之间有5个token的重叠。
[
Document {
pageContent: '人工智能(AI)是计算机科学的一个分支,�',
},
Document {
pageContent: '一个分支,致力于创造智能机器。它已',
},
Document {
pageContent: '器。它已经在多个领域取得了重大突',
},
Document {
pageContent: '了重大突破,如自然语言处理、计算机视',
},
...
]
优缺点
适用场景
适合与大语言模型配合使用的场景,特别是需要高保真度的语义解析时。
原理
MarkdownTextSplitter针对Markdown格式文本进行优化,按照Markdown语法规则分割文本,确保分割后的片段在结构上仍然保持有效性。
分词示例
这个分割器专门用于处理Markdown格式的文本,保留了Markdown的结构。
MarkdownTextSplitter 结果:
[
Document {
pageContent: '# 人工智能简介',
},
Document {
pageContent: '## 发展现状\n\n人工智能技术已经在多个领域取得突破:',
},
Document {
pageContent: '- 自然语言处理\n- 计算机视觉\n- 机器学习',
},
Document {
pageContent: '## 未来挑战\n\n1. 隐私保护\n2. 算法偏见\n3. 就业影响',
},
Document {
pageContent: '需要在技术创新和伦理考量之间取得平衡。',
}
]
优缺点
适用场景
适合处理Markdown文档的场景,比如技术文档、博客文章等。
原理
LatexTextSplitter专为处理LaTeX文档设计,遵循LaTeX的语法规则,确保数学公式和其他特性不会在分割时被破坏。
分词示例
LatexTextSplitter 被配置为每个 chunk 最多包含 100 个字符,相邻 chunk 之间有 20 个字符的重叠。
LatexTextSplitter 结果:
[
Document {
pageContent: '\\documentclass{article}\n \\usepackage{CJKutf8}\n \\usepackage{amsmath}',
},
Document {
pageContent: '\\begin{document}\n \\begin{CJK*}{UTF8}{gbsn}\n\n \\section{人工智能简介}',
},
Document {
pageContent: '\\section{人工智能简介}\n' +
'\n' +
' 人工智能(AI)是计算机科学的一个分支,致力于创造智能机器。\n' +
'\n' +
' \\subsection{发展现状}\n' +
'\n' +
' 近年来,AI在多个领域取得了重大突破:',
},
优缺点
优点:
专门针对LaTeX,适合处理学术论文和技术文档。
能够有效保留复杂公式和排版。
缺点:
适用场景
适合处理学术论文、技术报告和需要精确排版的文档。
在实际应用中,选择合适的文本分割器应根据具体需求进行。例如:
对于简单文本,可以选择CharacterTextSplitter。
处理长文本或需要上下文信息的场合,推荐使用RecursiveCharacterTextSplitter或TokenTextSplitter。
中文文章推荐用 RecursiveCharacterTextSplitter
处理Markdown文档时,MarkdownTextSplitter是最佳选择,而对于LaTeX文档,则应使用LatexTextSplitter。
综合考虑文本类型、上下文需求和输出质量,合理选用文本分割方式,将有助于提高模型的处理能力和效果。