Elasticsearch 索引文档的过程

2024-04-20 18:56:05
开发
34

协调节点默认使用文档 ID 参与计算（也支持通过 routing），以便为路由提供合适的分片。

1 shard = hash(document_id) % (num_of_primary_shards)

1、当分片所在的节点接收到来自协调节点的请求后，会将请求写入到Memory Buffer ，然后定时（默认是每隔 1 秒）写入到 Filesystem Cache ，这个从 Momery Buffer 到Filesystem Cache 的过程就叫做 refresh ；
2、当然在某些情况下，存在 Momery Buffer 和 Filesystem Cache 的数据可能会丢失，ES是通过 translog 的机制来保证数据的可靠性的。其实现机制是接收到请求后，同时也会写入到translog中，当 Filesystem cache 中的数据写入到磁盘中时，才会清除掉，这个过程叫做flush；3、在 flush 过程中，内存中的缓冲将被清除，内容被写入一个新段，段的fsync 将创建一个新的提交点，并将内容刷新到磁盘，旧的 translog 将被删除并开始一个新的translog。咕泡科技出品,严禁商用
4、 flush 触发的时机是定时触发（默认 30 分钟）或者 translog 变得太大（默认为512M）时；
补充：关于 Lucene 的 Segement：
1、 Lucene 索引是由多个段组成，段本身是一个功能齐全的倒排索引。2、段是不可变的，允许 Lucene 将新的文档增量地添加到索引中，而不用从头重建索引。3、对于每一个搜索请求而言，索引中的所有段都会被搜索，并且每个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多，搜索性能会越低。
4、为了解决这个问题，Elasticsearch 会合并小段到一个较大的段，提交新的合并段到磁盘，并删除那些旧的小段。

原文地址:https://blog.csdn.net/Mo_Haia/article/details/137869563 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1781637955585183744.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-04-20 18:56:05 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-20 18:56:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-20 18:56:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-20 18:56:05 100 阅读
NoSQL之Redis非关系型数据库

2024-04-20 18:56:05 101 阅读
2024.7.22 作业

2024-04-20 18:56:05 97 阅读
GDB调试正在运行的程序

2024-04-20 18:56:05 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-20 18:56:05 85 阅读
在Django里面运行非项目文件

2024-04-20 18:56:05 82 阅读
SSD基本架构与工作原理

2024-04-20 18:56:05 87 阅读
在誉天学习完HCIE就业吗？

2024-04-20 18:56:05 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-20 18:56:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-20 18:56:05 85 阅读
go 协程池的实现

2024-04-20 18:56:05 88 阅读
Shell脚本循环语句与函数

2024-04-20 18:56:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-20 18:56:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-20 18:56:05 85 阅读
四大引用——强软弱虚

2024-04-20 18:56:05 86 阅读
Python语言-面向对象

2024-04-20 18:56:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-20 18:56:05 85 阅读
网站安全-CDN篇

2024-04-20 18:56:05 88 阅读

热门阅读

如何使用Git-Secrets防止将敏感信息意外上传至Git库

2024-04-20 18:56:05 39 阅读
【一竞技CS2】VP战队官宣签下electroNic取代mir

2024-04-20 18:56:05 35 阅读
算法课程笔记——常用库函数

2024-04-20 18:56:05 30 阅读
Kafka 源码解析 - Kafka Consumer设计解析

2024-04-20 18:56:05 37 阅读
vue+vite+elements

2024-04-20 18:56:05 29 阅读
K8s RBAC认证授权深度解析

2024-04-20 18:56:05 34 阅读
python模式设计之责任链模式

2024-04-20 18:56:05 36 阅读
springboot宠物领养系统的设计与实现(文档+源码）

2024-04-20 18:56:05 33 阅读
华为 2024 届实习招聘——硬件-电源机试题（四套）

2024-04-20 18:56:05 27 阅读
UE5 C++ TimeLine 时间轴练习

2024-04-20 18:56:05 36 阅读
RabbitMQ-交换机

2024-04-20 18:56:05 27 阅读
UE5 C++ TimeHandle 定时器练习

2024-04-20 18:56:05 32 阅读
记录一下我hive连不上DataGrip的问题

2024-04-20 18:56:05 39 阅读
网络基础-TCP/IP和OSI协议模型

2024-04-20 18:56:05 35 阅读
元宇宙VR虚拟线上展馆满足企业快速布展的需要

2024-04-20 18:56:05 38 阅读
Git常用命令

2024-04-20 18:56:05 32 阅读
Hive：日期函数

2024-04-20 18:56:05 41 阅读
使用Termux在Android设备上编译运行SpecCPU2006

2024-04-20 18:56:05 33 阅读
C语言编译与链接

2024-04-20 18:56:05 35 阅读
【汇编语言】初识汇编

2024-04-20 18:56:05 39 阅读
第47期 | GPTSecurity周报

2024-04-20 18:56:05 34 阅读
IP地址和物理地址的理解

2024-04-20 18:56:05 37 阅读
匿名函数lambda

2024-04-20 18:56:05 38 阅读
2024年了，抖音小店如此内卷，新手商家还能赚到钱吗？

2024-04-20 18:56:05 115 阅读
图小灵的多线程

2024-04-20 18:56:05 32 阅读
vscode i18n Ally插件配置项

2024-04-20 18:56:05 35 阅读
Cisco ACI使用Postman配置交换机-未完待续

2024-04-20 18:56:05 34 阅读
接口测试——postman

2024-04-20 18:56:05 42 阅读
Python的pytest框架(2)--断言机制

2024-04-20 18:56:05 38 阅读
前端页面使用axios请求后端接口，提示还未登陆。但是后端接口使用postman验证确实是可行的

2024-04-20 18:56:05 32 阅读