Elasticsearch总结

参考、持续更新中...

为什么要使用Elasticsearch?

在数据库中，避免不了使用模糊搜索，尤其是对于业务不得不使用左右%的时候，模糊查询导致系统查询数据时都是全表扫描，在百万级别的数据库中，查询效率是非常低下的。而我们使用ES做一个全文索引，将经常查询的系统功能的某些字段，比如风险数据，风险名称，风险分类等字段放入 ES 索引库里，可以提高查询速度

Elasticsearch 的 Master 选举流程

Elasticsearch的master选举流程需要超过半数的节点参与，以确保选举结果的一致性和集群的稳定运行。

具体流程如下：

当一个Elasticsearch节点启动时，它会检查集群中是否已经存在主节点。如果不存在，则该节点会尝试成为主节点，并生成一个新的主节点ID，该ID通过生成全局独一无二的UUID实现。

节点向集群中的其他节点发送成为主节点的请求，并等待其他节点的响应。

其他节点接收到请求后，进行一系列验证，例如检查是否已有主节点，以及自身是否具备成为主节点的资格。

如果节点通过了验证，并且它的节点ID最小，那么它将成为新的主节点，并向所有节点发送主节点选举成功的通知。

其他节点接收到通知后，更新自己的状态，将当前的主节点设置为新的主节点。

为了防止脑裂（split brain）问题的发生，Elasticsearch要求超过半数的节点确认同一个节点为主节点。只有当超过一半的节点都确认某个节点为主节点时，该节点才会成为主节点。

如果多个节点同时通过了验证条件，并且它们的节点ID都是最小的，就会使用辅助的选举机制来解决冲突，例如利用网络延迟或节点的IP地址和端口号等信息来决定最终的主节点。

如果当前的主节点失效或离线，其他节点会重新进行选举来确定新的主节点，以保证集群的正常工作。

通过以上流程，Elasticsearch能够可靠地选举出一个主节点，并确保选举结果的一致性和集群的稳定性。超过半数的节点参与主节点选举，可以防止脑裂问题的发生，并维护数据一致性和集群的高可用性。

Elasticsearch 集群脑裂问题

Elasticsearch 集群脑裂问题（Split-Brain problem）是指在一个分布式集群中的节点之间出现网络分区或通信故障，导致集群的不同部分相互失去联系并开始独立工作。这种情况下可能会导致数据一致性问题，因为不同部分的节点可能会有不同的数据副本，导致数据冲突或丢失。

为了解决集群脑裂问题，Elasticsearch 提供了一些机制：

选举主节点：Elasticsearch 集群中的节点会通过选举算法选择一个主节点，其他节点则成为从节点。主节点负责协调集群中的各项操作，如索引和搜索等。当网络分区发生时，主节点会尝试与从节点保持联系，如果无法保持联系，则会触发重新选举过程。

心跳检测：Elasticsearch 节点之间会互相发送心跳检测消息，以检测节点的可用性和网络连接状态。如果一个节点在一段时间内没有收到其他节点的心跳消息，它会认为网络发生了问题，并尝试重新加入集群或触发重新选举过程。

集群分片分配策略：Elasticsearch 会将索引数据划分为多个分片，并将这些分片分配到不同的节点上。在集群脑裂情况下，Elasticsearch 会根据分片的复制策略进行数据同步和冲突解决。

配置调整：通过调整 Elasticsearch 的配置参数，可以提高集群的容错性和稳定性。例如，增加心跳检测的频率和超时时间，使用更强大的硬件设备，或者增加节点的数量等。

通俗理解：

总的来说，Elasticsearch 提供了一系列机制来处理集群脑裂问题，但完全消除脑裂问题是非常困难的，需要在实际应用中综合考虑各种因素进行配置和调优。

当谈到Elasticsearch集群脑裂问题时，我们可以将其比喻为一个团队的成员之间的沟通出现了问题。想象一下，你在一个大团队中工作，团队成员之间需要通过互相沟通和协调来达到共同的目标。但是，由于网络分割或通信故障，导致团队成员之间无法互相沟通。这可能会导致团队成员分成几个小团队，各自独立工作，导致每个小团队都有自己的任务和做法。

在这种情况下，团队脑裂问题会带来一些严重的后果。由于不同小团队之间的孤立，可能会造成工作内容的冲突和重复。而且，如果每个小团队都做出了不同的决策或改变，可能会导致数据不一致的问题。

为了解决这个问题，我们可以采取一些措施。首先，我们需要选择一个“主要”的团队成员，作为整个团队的负责人。这个“主要”的团队成员将负责协调其他成员的工作，并确保各成员保持联系。如果出现了通信问题，主要成员会尝试进行重新协调和重新连接。

另外，我们还可以设置一些心跳检测机制，让每个成员定期发送消息以检查彼此的可用性。如果某个成员在一段时间内没有收到其他成员的消息，就会意识到有问题发生，并尝试重新连接或重新协调。

另外，我们还可以将工作任务分成若干部分，并分配给不同的成员。这样，即使出现了团队脑裂问题，不同成员也只负责各自的任务。当问题解决后，再进行协调和整合。

最后，我们还可以通过调整团队的配置和增加备用成员来提高团队的稳定性和容错性。例如，使用更强大的通信设备，加入更多的备份成员等。

总之，团队脑裂问题是一个严重的问题，但通过一些措施和机制，我们可以尽量减少其影响。在实际应用中，我们需要根据实际情况，进行配置和优化。

Elasticsearch集群脑裂问题可能由以下原因引起：

网络故障：网络故障是导致集群脑裂问题最常见的原因之一。当网络出现分区或断开连接时，集群中的节点可能无法相互通信，从而导致脑裂。

节点故障：节点故障也可能导致集群脑裂。当某个节点出现故障或崩溃时，集群中的其他节点可能无法与该节点保持联系，从而导致脑裂问题。

配置错误：不正确的配置也可能导致集群脑裂问题。例如，如果网络延迟设置得过高或心跳超时设置得过低，可能会导致节点之间不必要的隔离，从而引发脑裂问题。

数据中心间通信问题：如果您的Elasticsearch集群跨越多个数据中心，数据中心间的通信问题可能会导致集群脑裂。例如，较高的网络延迟、传输丢包或数据中心之间的网络拥塞等问题可能导致脑裂。

节点数量太少：在一个较小的集群中，如果节点数量很少，则更容易发生脑裂问题。节点数量越少，出现故障或网络分区的影响就越大，因为集群没有足够的节点来确保持续的协调和通信。

需要注意的是，这些都是脑裂问题的一般原因，具体原因可能因环境和配置而异。为了有效预防和解决脑裂问题，需要深入了解您的集群配置和环境，并采取相应的措施来确保稳定和可靠的通信。

避免脑裂是一个复杂的问题，需要从多个方面进行考虑和操作。以下是一些常见的方法和技术，可以帮助你在Elasticsearch集群中避免脑裂问题：

配置分片复制：确保每个分片都有足够的副本数量。这样，当一个节点失效时，其他副本仍然可用，避免数据丢失。

使用Zen发现模块：Zen发现模块是Elasticsearch的一部分，可以监测集群中节点的状态，并检测网络分区。它可以选择一个主节点来维护集群的正常运行，当发生分区时。

配置集群选主：通过配置集群选主算法，可以避免在网络分区或节点故障时出现多个主节点的情况。

使用投票机制：投票机制可以在发生节点故障或网络分区时选择新的主节点。通过投票来决定新的主节点，避免多个主节点同时存在。

配置适当的超时时间：配置适当的超时时间可以帮助检测和恢复故障节点。如果一个节点在超时时间内没有响应，可以将其视为失效，并进行必要的操作。

监测集群健康状态：定期监测集群的健康状态，包括节点的活动状态、网络延迟、分片状态等。这将帮助你及时发现潜在的脑裂问题，并采取相应的措施来解决。

使用弹性网络配置：配置弹性网络设置，例如超时时间、连接保持时间等，可以帮助集群在网络分区条件下更好地适应并避免脑裂。

进行恢复测试：定期进行恢复测试，模拟节点故障或网络分区情况，验证集群在这些情况下的表现，并及时做出修复和调整。

以上是一些常见的方法，可以帮助你避免或减小脑裂问题。然而，脑裂是一个复杂的问题，解决方案可能因环境、应用场景和需求而异。因此，确保根据你的具体情况进行适当的配置和调整

Elasticsearch 中的倒排索引是什么

倒排索引是一种将文档中的词条与其所在文档建立关联的数据结构，以便快速定位包含特定词条的文档。

Elasticsearch中的倒排索引是一种数据结构，用于加快文本搜索的速度。它是通过对文档中的每个词条进行索引构建的，而不是对文档进行索引。因此，倒排索引将每个词条与包含该词条的文档相对应。

在倒排索引中，每个词条都有一个术语词典的条目，该词典用于存储词条的词频和文档频率等信息。而文档则被存储在倒排列表中，倒排列表中包含了包含该词条的所有文档的相关信息。这些信息包括文档的标识符、词条在文档中的位置等。

倒排索引的优势在于它可以快速定位包含特定词条的文档，从而加快搜索的速度。当用户执行一个搜索查询时，Elasticsearch会使用倒排索引来确定包含查询词条的文档，并根据查询的相关性对文档进行排序。

总结来说，倒排索引是Elasticsearch中用于加速文本搜索的一种数据结构，它通过将每个词条与包含该词条的文档相对应，快速定位相关文档。

想象一下你有一本书，想要快速找到特定单词在书中出现的位置。一种简单的方法是从头到尾逐页阅读，但这很耗时。倒排索引就是帮助你更快地找到特定单词的一种技术。

倒排索引可以理解为一张单词表，列出了书中的所有单词以及与每个单词相关的页码。例如，如果你想查找单词"猫"，倒排索引会告诉你在书中的哪些页出现了这个单词。

倒排索引的工作方式是先收集与单词相关的信息，例如每个单词出现在哪些文档中，每个单词在文档中出现的位置等。然后根据这些信息构建倒排索引，将每个单词与包含它的文档关联起来。

当你进行搜索时，倒排索引可以帮助你快速找到包含搜索词的文档，而无需逐个文档地搜索。这样可以提高搜索的速度和准确性。

分词器是用于将文本拆分成词条的工具。在倒排索引中，文本需要被拆分成单个的词条，以便建立索引和进行搜索。

分词器的工作是将原始文本进行拆分，并生成一系列词条。它根据一定的规则和算法，将文本按照空格、标点符号、停用词等进行切分，提取出有意义的单词。

以中文为例，一个简单的分词器可能会根据词语之间没有空格的规则，将句子拆分成一个个独立的词语。例如，句子"我喜欢学习人工智能"可以被分词器拆分成"我"、"喜欢"、"学习"、"人工智能"等词语。

在Elasticsearch中，分词器是一个重要的组件，它负责解析和处理文本数据，并生成适合建立倒排索引的词条。不同的语言和需求可能需要不同的分词器，而Elasticsearch提供了多种内置的分词器供用户选择。

通过使用合适的分词器，可以将文本拆分成更细粒度的词条，提高搜索的灵活性和准确性。分词器在倒排索引中起着关键的作用，它们确保了文本被正确地拆分和索引

假设我们有三个文档以及它们的内容如下：

文档1："I like to play football"

文档2："Football is my favorite sport"

文档3："I enjoy playing football with my friends"

现在，我们将使用这些文档构建倒排索引。

分词：首先，我们使用分词器将每个文档拆分成单个的词条。

文档1的词条：[I, like, to, play, football]

文档2的词条：[Football, is, my, favorite, sport]

文档3的词条：[I, enjoy, playing, football, with, my, friends]

建立倒排索引：接下来，我们根据词条构建倒排索引，记录每个词条在哪些文档中出现。

词条"I"出现在文档1和文档3。

词条"like"出现在文档1。

词条"to"出现在文档1。

词条"play"出现在文档1。

词条"football"出现在文档1、文档2和文档3。

词条"is"出现在文档2。

词条"my"出现在文档2和文档3。

词条"favorite"出现在文档2。

词条"sport"出现在文档2。

词条"enjoy"出现在文档3。

词条"playing"出现在文档3。

词条"with"出现在文档3。

词条"friends"出现在文档3。

下面是一个示意图，展示了倒排索引的结构：