阿里妹导读
Elasticsearch可以实现秒级的搜索,cluster是一种分布式的部署,极易扩展(scale )这样很容易使它处理PB级的数据库容量。最重要的是Elasticsearch使它搜索的结果可以按照分数进行排序,它能提供我们最相关的搜索结果(relevance) 。
一、概述
特点
安装方便: 没有其他依赖,下载后安装非常方便;只用修改几个参数就可以搭建起来一个集群;
JSON: 输入/输出格式为 JSON,意味着不需要定义 Schema,快捷方便;
RESTful: 基本所有操作 ( 索引、查询、甚至是配置 ) 都可以通过 HTTP 接口进行;
分布式: 节点对外表现对等(每个节点都可以用来做入口) 加入节点自动负载均衡;
多租户: 可根据不同的用途分索引,可以同时操作多个索引;
功能
分布式的搜索引擎
分布式:Elasticsearch自动将海量数据分散到多台服务器上去存储和检索。
全文检索
提供模糊搜索等自动度很高的查询方式,并进行相关性排名,高亮等功能。
数据分析引擎(分组聚合)
社区网站,最近一周用户登录、最近一个月各功能使用情况。
对海量数据进行近实时(秒级)的处理
场景
搜索类场景
比如说人员检索、设备检索、App内的搜索、订单搜索。
日志分析类场景
经典的ELK组合 (Elasticsearch/Logstash/Kibana),实现日志收集,日志存储,日志分析。
数据预警平台 及数据分析场景
例如社区团购提示,当优惠的价格低于某个值时,自动触发通知消息,通知用户购买。
分析竞争对手商品销量Top10,供运营分析等等。
商业BI(Business Intelligence) 系统
竞品分析
对比
二、基本概念
IK分词器
采用了特有的“正向迭代 最细粒度 切分算法“,具有60万字/秒的高速处理能力。
采用了 多子处理器 分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
支持 个人词条的优化 的词典存储,更小的内存占用。
针对Lucene 全文检索优化 的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索
排列组合,能极大得提高Lucene检索的命中率。
扩展词典: ext_dict
停用词典: stop_dict
索引(类数据库)
映射(类表设计)
文档(数据)
三、高级特性
映射高级
地理坐标点是指地球表面可以用经纬度描述的一个点。地理坐标点可以用来计算两个坐标间的距离,还可以判断一个坐标是否在一个区域中。地理坐标点需要显式声明对应字段类型为 geo_point
使用dynamic mapping 来确定字段的数据类型并自动把新的字段添加到类型映射
DSL高级
查询所有(match_all query)
全文搜索(full-text query)
匹配搜索(match query)
短语搜索(match phrase query)
默认查询(query string)
多字段匹配搜索(multi match query)
词条级搜索(term-level query)
精确搜索term
集合搜索idx
范围搜索range
前缀搜索prefix
通配符搜索wildcard
正则搜索regexp
模糊搜索fuzzy
复合搜索
聚合分析
聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值、最小值,计算和、平均值等。
智能搜索
Context Suggester