专栏名称: ImportNew

伯乐在线旗下账号，专注Java技术分享，包括Java基础技术、进阶技能、架构设计和Java技术领域动态等。

jsearch 的索引文件结构

ImportNew · 公众号 · Java · 2017-03-09 20:43

正文

（点击上方公众号，可快速关注）

来源：杨尚川，
my.oschina.net/apdplat/blog/416505
如有好文章投稿，请点击 → 这里了解详情

jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。

jsearch 地址：https://github.com/ysc/jsearch 。

jsearch的索引文件结构定义如下：

1、一个词的索引由=分割的三部分组成：

第一部分是词
第二部分是这个词在多少个文档中出现过（上限1000）
第三部分是倒排表

2、倒排表由多个倒排表项目组成，倒排表项目之间使用|分割

3、倒排表项目的组成又分为三部分，用_分割：

第一部分是文档ID
第二部分是词频
第三部分是词的位置

4、词的位置用:分割

例如:

shingles=31=47466_1_2|1_1_6|1_1_1|2_1_5|67_1_1|903_1_3|17_1_5|1_3_4:6:11

表示词 shingles 的索引：

词：shingles

有 31 个文档包含 shingles 这个词

包含这个词的第一篇文档的ID是47466，

shingles 的词频是1，出现 shingles 的位置是2

文档内容为：

A better solution is to use shingles, which are compound tokens created

from multiple adjacent tokens.

对文档内容进行分词并移除停用词之后的结果为：

[solution, shingles, compound, tokens, created, multiple, adjacent, tokens]

包含这个词的第二篇文档的ID是47466+1=47467，

shingles 的词频是1，出现 shingles 的位置是6

文档内容为：

Lucene has a sandbox module that simplifies adding shingles to your index,

described in section 8.3.2

对文档内容进行分词并移除停用词之后的结果为：

[lucene, sandbox, module, simplifies, adding, shingles, index, section]

包含这个词的第八篇文档的ID是47466+1+1+2+67+903+17+1=48458，

shingles 的词频是3，出现 shingles 的位置分别是4、6、11

文档内容为：

For example the sentence “please divide this sentence into shingles”

might be tokenized into the shingles “please divide”, “divide this”,

“this sentence”, “sentence into” and “into shingles”

对文档内容进行分词并移除停用词之后的结果为：

[sentence, divide, sentence, shingles, tokenized, shingles, divide, divide, sentence, sentence, shingles]

这里需要注意的是位置不是和原文一一对应的，而是和去除停用词后的位置一一对应的

停用词的定义看这里的链接，分词使用word分词提供的针对纯英文文本的分词器

看完本文有收获？请转发分享给更多人

关注「ImportNew」，看技术干货

推荐文章

芋道源码 · 浏览不良网站一定会有记录吗?

昨天

芋道源码 · 孤陋寡闻了，原来 MySQL 还能这么写？

2 天前

芋道源码 · MJGA，让Java再次伟大，开箱即用Springboot怕不怕Gin？

2 天前

芋道源码 · Nginx 实现动态封禁IP，详细教程来了

4 天前

JavaGuide · 裸辞转行两年半，想要回来继续干Java，可行吗？

5 天前

LinkedIn校园 · 见识的少，所以才得过且过

8 年前

CEO智库 · 请将你的能力长成一棵树，而不是一片草

7 年前

读书小分队 · 女人身体上最有福气的痣，你知道长在哪里吗？

7 年前

大华那点事 · 关爱爱宠，以食为首！大华万里家有萌宠的都看看！

7 年前

新材料在线 · 急寻主办方，场均300+人次报名的会议全部集中在这里

7 年前