Elasticsearch 索引文档的过程

协调节点默认使用文档 ID 参与计算( 也支持通过 routing) , 以便为路由提供合适的分片。

1 shard = hash(document_id) % (num_of_primary_shards)

1、 当分片所在的节点接收到来自协调节点的请求后 ,会将请求写入到Memory Buffer ,然后定时( 默认是每隔 1 秒)写入到 Filesystem Cache ,这个从 Momery Buffer 到Filesystem Cache 的过程就叫做 refresh ;
2、当然在某些情况下 ,存在 Momery Buffer 和 Filesystem Cache 的数据可能会丢失,ES是通过 translog 的机制来保证数据的可靠性的。其实现机制是接收到请求后,同时也会写入到translog中,当 Filesystem cache 中的数据写入到磁盘中时 , 才会清除掉,这个过程叫做flush;3、在 flush 过程中 , 内存中的缓冲将被清除 , 内容被写入一个新段,段的fsync 将创建一个新的提交点 , 并将内容刷新到磁盘 ,旧的 translog 将被删除并开始一个新的translog。咕泡科技出品,严禁商用
4、 flush 触发的时机是定时触发( 默认 30 分钟) 或者 translog 变得太大(默认为512M)时;
补充 :关于 Lucene 的 Segement:
1、 Lucene 索引是由多个段组成 , 段本身是一个功能齐全的倒排索引。2、段是不可变的 , 允许 Lucene 将新的文档增量地添加到索引中 ,而不用从头重建索引。3、对于每一个搜索请求而言 ,索引中的所有段都会被搜索 , 并且每个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多 ,搜索性能会越低。
4、为了解决这个问题 ,Elasticsearch 会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。

相关推荐

  1. Elasticsearch 索引文档过程

    2024-04-20 18:56:05       35 阅读
  2. Elasticsearch REST API 初探:索引与搜索文档奥秘

    2024-04-20 18:56:05       27 阅读
  3. ElasticSearch删除索引命令

    2024-04-20 18:56:05       64 阅读
  4. Elasticsearch索引条件过滤:字段匹配

    2024-04-20 18:56:05       54 阅读
  5. 使用Elasticsearch在同一索引中区分不同类型文档

    2024-04-20 18:56:05       35 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-20 18:56:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-20 18:56:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-20 18:56:05       82 阅读
  4. Python语言-面向对象

    2024-04-20 18:56:05       91 阅读

热门阅读

  1. Kafka 源码解析 - Kafka Consumer设计解析

    2024-04-20 18:56:05       37 阅读
  2. vue+vite+elements

    2024-04-20 18:56:05       29 阅读
  3. python模式设计之责任链模式

    2024-04-20 18:56:05       36 阅读
  4. Git常用命令

    2024-04-20 18:56:05       32 阅读
  5. Hive:日期函数

    2024-04-20 18:56:05       41 阅读
  6. IP地址和物理地址的理解

    2024-04-20 18:56:05       37 阅读
  7. 匿名函数lambda

    2024-04-20 18:56:05       38 阅读
  8. Python的pytest框架(2)--断言机制

    2024-04-20 18:56:05       38 阅读