Elasticsearch分词器

Elasticsearch分词器教程

Elasticsearch 中默认的分词器主要有 standard tokenizer、standard token filter、lowercase token filter 和 stop token filer。

Elasticsearch分词器详解

分词器 描述
standard tokenizer 以单词边界进行切分
standard token filter 什么都不做
lowercase token filter 将所有字母转换为小写
stop token filer 移除停用词,比如 a the it 等等

案例

使用分词器

我们在 Kibana 的控制台上,输入以下代码,启用 english 停用词 token filter:

PUT /haicodernet { "settings": { "analysis": { "analyzer": { "es_std": { "type": "standard", "stopwords": "_english_" } } } } }

输入完成后,我们点击运行按钮,输出了最终的运行结果,如下图所示:

43_Elasticsearch分词器.png

我们看到,此时我们启用停词器成功了。

停词器使用

我们在 Kibana 的控制台上,输入以下代码,测试停词器:

GET /haicodernet/_analyze { "analyzer": "standard", "text": "a dog is in the house" }

输入完成后,我们点击运行按钮,输出了最终的运行结果,如下图所示:

44_Elasticsearch分词器.png

我们看到,输出了分词之后的每个词语,我们再次输入以下代码,测试停词器:

GET /haicodernet/_analyze { "analyzer": "es_std", "text":"a dog is in the house" }

输入完成后,我们点击运行按钮,输出了最终的运行结果,如下图所示:

45_Elasticsearch分词器.png

我们分析了 es_std 停词器。

Elasticsearch分词器总结

Elasticsearch 中默认的分词器主要有 standard tokenizer、standard token filter、lowercase token filter 和 stop token filer。