专栏名称: 阿里开发者

阿里巴巴官方技术号，关于阿里的技术创新均将呈现于此

前端大模型入门（四）：教你如何根据场景选择合适的长文本分割方式

阿里开发者 · 公众号 · 科技公司 · 2024-12-17 18:00

主要观点总结

本文介绍了五种文本分割器：CharacterTextSplitter、RecursiveCharacterTextSplitter、TokenTextSplitter、MarkdownTextSplitter和LatexTextSplitter，分别从原理、优缺点和适用场景等方面进行了详细分析。文章还提供了实际应用中的最佳实践推荐。

关键观点总结

关键观点1: 文本分割在前端大模型应用中的重要性

合理的文本分割能显著提高模型的表现。在大模型的输入输出都有有限的情况下，嵌入也有token限制，文本分割成为了一项重要技术。

关键观点2: 五种文本分割器的原理及特点

文章详细描述了五种文本分割器的工作原理、优缺点和适用场景。包括CharacterTextSplitter按字符分割、RecursiveCharacterTextSplitter递归分割、TokenTextSplitter基于词元分割、MarkdownTextSplitter针对Markdown格式文本分割和LatexTextSplitter专为处理LaTeX文档设计。

关键观点3: 文本分割器的实际应用推荐

文章给出了实际应用中的最佳实践推荐，根据文本类型、上下文需求和输出质量，合理选用文本分割方式。

正文

作者｜想飞的雪糕

在前端开发大模型应用的时候，处理和分割文本是常见需求，毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的，合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式，本文将对比五种文本分割器：

CharacterTextSplitter
RecursiveCharacterTextSplitter
TokenTextSplitter
MarkdownTextSplitter
LatexTextSplitter

从原理、优缺点和适用场景等多个维度进行分析，帮助你选出最合适当前续期的文本分割器。

如果你没有阅读过之前的文章，推荐看看：

前端大模型入门（一）：用 js+langchain 构建基于 LLM 的应用

前端大模型入门（二）：掌握Langchain的核心Runnable接口

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析

以了解本文的作用和文本切割发生时机。

准备工作

准备好nodejs20+，yarn；

安装依赖"@langchain/textsplitters" 或者 "langchain/text_splitter";

具体的代码实现，可以参考本文绑定的资源，可以在nodejs或者web页面测试。

一、CharacterTextSplitter

原理

CharacterTextSplitter通过简单地按字符进行分割。用户可以指定分割的字符数，以便将文本切分为固定长度的片段。

分词示例

这个分割器按字符分割文本，每个chunk包含30个字符，相邻chunk之间有5个字符的重叠。中间可能被截断：


CharacterTextSplitter 结果:[  Document {    pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。',    },  Document {    pageContent: '智能机器。它已经在多个领域取得了重大突破，如自然语言处理、计',  },  Document {    pageContent: '言处理、计算机视觉和机器学习等。\n\n近年来，深度学习技术的发',  }]

优缺点

优点：

实现简单，易于理解和使用。
适用于需要快速分割的简单文本场景。

缺点：

无法识别文本中的语义结构，可能导致信息碎片化。
对于长句子或段落，可能会导致上下文缺失。

适用场景

适用于对文本分割要求不高、上下文关系不强的情况，比如简单的日志文件处理或非结构化数据的初步处理。

二、RecursiveCharacterTextSplitter

原理

RecursiveCharacterTextSplitter在CharacterTextSplitter的基础上，使用递归算法来分割文本。首先按指定字符数分割，然后尝试合并相邻的片段，直到满足某些条件。

分词示例

这个分割器递归地分割文本，使用了多个分隔符（换行符、句号、逗号等），每个chunk最多50个字符，相邻chunk之间有10个字符的重叠。


RecursiveCharacterTextSplitter 结果:[  Document {       pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器',  },  Document {       pageContent: '。它已经在多个领域取得了重大突破，如自然语言处理、计算机视觉和机器学习等。',  },  Document {       pageContent: '近年来，深度学习技术的发展使得AI的能力大幅提升',  },  ...  ]

优缺点

优点：

保留了更多的上下文信息，尤其在长段落中。
更加灵活，适合处理多样化的文本。

缺点：

实现复杂，可能导致性能开销增加。
需要调节更多参数以适应不同文本类型。

适用场景

适用于对上下文保留有较高要求的场景，例如长篇文章或报告的处理。

三、TokenTextSplitter

原理

TokenTextSplitter基于词元（Token）进行分割，通常与语言模型的输入结构相结合。用户可以指定每个片段的最大Token数。

分词示例

这个分割器使用适合中文的cl100k_base编码，每个chunk包含20个token，相邻chunk之间有5个token的重叠。

[  Document {       pageContent: '人工智能（AI）是计算机科学的一个分支，�',  },  Document {       pageContent: '一个分支，致力于创造智能机器。它已',  },  Document {       pageContent: '器。它已经在多个领域取得了重大突',  },  Document {       pageContent: '了重大突破，如自然语言处理、计算机视',  },  ...  ]

优缺点

优点：

适合大多数自然语言处理任务，可以有效保留上下文信息。
分割后的片段大小更符合模型的输入要求。

缺点：

对于非英语文本或特定领域文本，Token化效果可能不佳。
需要根据模型的Token限制进行调整。

适用场景

适合与大语言模型配合使用的场景，特别是需要高保真度的语义解析时。

四、MarkdownTextSplitter

原理

MarkdownTextSplitter针对Markdown格式文本进行优化，按照Markdown语法规则分割文本，确保分割后的片段在结构上仍然保持有效性。

分词示例

这个分割器专门用于处理Markdown格式的文本，保留了Markdown的结构。


MarkdownTextSplitter 结果:[  Document {       pageContent: '# 人工智能简介',  },  Document {       pageContent: '## 发展现状\n\n人工智能技术已经在多个领域取得突破：',  },  Document {       pageContent: '- 自然语言处理\n- 计算机视觉\n- 机器学习',  },  Document {       pageContent: '## 未来挑战\n\n1. 隐私保护\n2. 算法偏见\n3. 就业影响',  },  Document {       pageContent: '需要在技术创新和伦理考量之间取得平衡。',  }]

优缺点

优点：

保留了Markdown的语法结构，适合处理文档和笔记。
使得分割后的片段可以直接用于渲染。

缺点：

只适用于Markdown格式的文本，通用性较差。
对于复杂的Markdown文档，可能需要更复杂的逻辑来处理。

适用场景

适合处理Markdown文档的场景，比如技术文档、博客文章等。

五、LatexTextSplitter

原理

LatexTextSplitter专为处理LaTeX文档设计，遵循LaTeX的语法规则，确保数学公式和其他特性不会在分割时被破坏。

分词示例

LatexTextSplitter 被配置为每个 chunk 最多包含 100 个字符，相邻 chunk 之间有 20 个字符的重叠。


LatexTextSplitter 结果:[  Document {       pageContent: '\\documentclass{article}\n  \\usepackage{CJKutf8}\n  \\usepackage{amsmath}',  },  Document {       pageContent: '\\begin{document}\n  \\begin{CJK*}{UTF8}{gbsn}\n\n  \\section{人工智能简介}',  },  Document {       pageContent: '\\section{人工智能简介}\n' +      '\n' +      '  人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。\n' +      '\n' +      '  \\subsection{发展现状}\n' +      '\n' +      '  近年来，AI在多个领域取得了重大突破：',  },

优缺点

优点：

专门针对LaTeX，适合处理学术论文和技术文档。
能够有效保留复杂公式和排版。

缺点：

仅限于LaTeX格式，不具备通用性。
学习曲线较陡，对于不熟悉LaTeX的用户可能不友好。

适用场景

适合处理学术论文、技术报告和需要精确排版的文档。

最佳实践推荐

在实际应用中，选择合适的文本分割器应根据具体需求进行。例如：

对于简单文本，可以选择CharacterTextSplitter。
处理长文本或需要上下文信息的场合，推荐使用RecursiveCharacterTextSplitter或TokenTextSplitter。
中文文章推荐用 RecursiveCharacterTextSplitter
处理Markdown文档时，MarkdownTextSplitter是最佳选择，而对于LaTeX文档，则应使用LatexTextSplitter。

综合考虑文本类型、上下文需求和输出质量，合理选用文本分割方式，将有助于提高模型的处理能力和效果。