Elasticsearch倒排索引结构

Elasticsearch倒排索引结构教程

Elasticsearch 中的倒排索引,是适合用于进行搜索的。

倒排索引的结构

包含这个关键词的 document list。

包含这个关键词的所有 document 的数量:IDF(inverse document frequency)。

这个关键词在每个 document 中出现的次数:TF(term frequency)。

这个关键词在这个 document 中的次序。

每个 document 的长度:length norm。

包含这个关键词的所有 document 的平均长度。

倒排索引不可变的好处

不需要锁,提升并发能力,避免锁的问题。

数据不变,一直保存在 os cache 中,只要 cache 内存足够。

filter cache 一直驻留在内存,因为数据不变。

可以压缩,节省 cpu 和 io 开销。

倒排索引不可变的坏处

每次都要重新构建整个索引。