面试分享——Elasticsearch面试题

硬件资源层面，要给到位。能 SSD 磁盘的，优先SSD磁盘。这样，写入、检索性能均比普通磁盘要好。能内存高配的尽量高配，推荐64GB，且堆内存设置32GB之内；如果更高配置，有待商榷和验证性能。CPU核数决定并发支持力度，这个和“线程池队列调优”有关系，也不能太低。尤其云服务器场景，受限于硬件资源的分配，别太低。云服务器也要考虑网络带宽，不能太低。否则，即便所谓各种检索技巧，也无处可施。比如：买个1核1GB的云服务器学生机，神仙也帮不了优化。

数据建模层面，做足文章。不推荐上来就直接优化DSL，因为某些情况，优化空间非常少。考虑字段层面是否最优化设置，字段类型是否设置合理；考虑有没有字段借助预处理 ingest pipeline 再继续拆分会不会更好；考虑所谓的多表关联，能不能不关联的宽表空间换时间实现。

复杂检索考虑优化点。耗费性能的检索，是否有替代方案。比如Wildcard能否通过 ngram 分词修改检索方式，能不用，尽量不用；如果使用 filter 过滤提升缓存性能的，是否使用；"profile:true"观察哪个环节出问题，有针对性的优化。

其他因素。检索时，是否有大量写入操作，查看是否还有优化空间；是否采取必要的段合并的策略，以优化检索；其他业务场景有针对性的调优。

3.Elasticsearch 集成与开发问题

3.1问题描述

如何在现有的 Web 应用程序中集成 Elasticsearch？

解释在微服务架构中如何利用 Elasticsearch 来提供搜索服务。

3.2问题回答

基本上说一下自己 Java 或者 Python层面集成 Elasticsearch 实践就可以。

比如：使用的 Java 官方客户端 Java-api（8.x），还是早期的 HighLevelREST API，更早起的 LowLevelREST API 等。或者使用的 SpringBoot 相关的 API。

或者Python 框架下的 elasticsearch.py、elasticsearch-DSL等。

4.Elasticsearch DSL 相关应用选型等问题

4.1问题描述

你对 Elasticsearch Query DSL 有多熟悉？请给出一个你认为高效的查询例子。

使用 Elasticsearch DSL 编写一个可以处理模糊搜索和自动完成功能的查询。

4.2问题回答

4.2.1你对 Elasticsearch Query DSL 有多熟悉？请给出一个你认为高效的查询例子。

其实就说出 DSL 分类就可以：精确匹配查询（term、exists等）、全文检索（match、match_phrase 等）、Bool 组合检索（must、must_not、filter、should）等。

高效查询比如：基于 filter 的过滤缓存检索，性能比普通没有 filter 好很多，因为有效使用了缓存。

4.2.2使用 Elasticsearch DSL 编写一个可以处理模糊搜索和自动完成功能的查询。

模糊查询的含义，比如：match_phrase 和 slop 结合可以实现，比如：wildcard 可以实现，但有性能问题，比如：regex 正则检索可以实现，也有性能问题。

自动完成功能，需要沟通是不是自动补全功能，这点 ES 支持 auto complete 类似的 API——completion-suggester。

补充

[1] https://www.elastic.co/guide/en/elasticsearch/reference/8.12/search-suggesters.html#completion-suggester

[2]https://docs.elastic.co/search-ui/solutions/ecommerce/autocomplete

[3]https://taranjeet.medium.com/elasticsearch-building-autocomplete-functionality-494fcf81a7cf

[4]https://opster.com/guides/elasticsearch/how-tos/elasticsearch-auto-complete-guide/

[5]https://taranjeet.medium.com/elasticsearch-using-completion-suggester-to-build-autocomplete-e9c120cf6d87