袁庭新ES系列13节 | 聚合aggregations

前言

上一章节我们带领大家学习了Elasticsearch中的高级查询,这一章节袁老师再带领大家学习一种高级查询:聚合。

聚合可以用来干什么呢?聚合可以让我们极其方便的实现对数据的统计和分析。例如:

  • 什么品牌的手机最受欢迎?
  • 这些手机的平均价格、最高价格、最低价格?
  • 这些手机每月的销售情况如何?

实现这些统计功能的比数据库的SQL要方便的多,而且查询速度非常快,可以实现近实时搜索效果。

一. 基本概念

1.聚合基本概念介绍

Elasticsearch中的聚合,包含多种类型,最常用的两种:一个叫桶,一个叫度量。

桶(bucket)类似于(group by)。桶的作用是,按照某种方式对数据进行分组,每一组数据在Elasticsearch中称为一个桶 ,例如我们根据国籍对人划分,可以得到中国桶、英国桶、日本桶等;或者我们按照年龄段对人进行划分,0~10岁、10~20岁、20~30岁和30~40岁等。

Elasticsearch中提供的划分桶的方式有很多:

桶划分方式

描述

Date Histogram Aggregation

根据日期阶梯分组,例如给定阶梯为周,会自动每周分为一组

Histogram Aggregation

根据数值阶梯分组,与日期类似,需要知道分组的间隔(interval)

Terms Aggregation

根据词条内容分组,词条内容完全匹配的为一组

Range Aggregation

数值和日期的范围分组,指定开始和结束,然后按段分组

综上所述,我们发现bucket aggregations只负责对数据进行分组,并不进行计算,因此bucket中往往会嵌套另一种聚合metrics aggregations,即度量。

度量(metrics)相当于聚合的结果。分组完成以后,我们一般会对组中的数据进行聚合运算,例如求平均值、最大、最小、求和等,这些在Elasticsearch中称为度量。

比较常用的一些度量聚合方式:

度量聚合方式

描述

Avg Aggregation

求平均值

Max Aggregation

求最大值

Min Aggregation

求最小值

Percentiles Aggregation

求百分比

Stats Aggregation

同时返回avg、max、min、sum、count等

Sum Aggregation

求和

Top hits Aggregation

求前几

Value Count Aggregation

求总数

2.聚合操作数据准备

为了测试聚合,我们先批量导入一些数据。

创建索引:

PUT /car
{
  "mappings": {
    "orders": {
      "properties": {
        "color": {
          "type": "keyword"
        },
        "make": {
          "type": "keyword"
        }
      }
    }
  }
}

响应结果:

注意:在Elasticsearch中,需要进行聚合、排序、过滤的字段其处理方式比较特殊,因此不能被分词,必须使用keyword或数值类型 。这里我们将color和make这两个文字类型的字段设置为keyword类型,这个类型不会被分词,将来就可以参与聚合。

导入数据,这里是采用批处理的API,大家直接复制到Kibana运行即可:

POST /car/orders/_bulk
{ "index": {}}
{ "price": 10000, "color": "红", "make": "本田", "sold": "2020-10-28" }
{ "index": {}}
{ "price": 20000, "color": "红", "make": "本田", "sold": "2020-11-05" }
{ "index": {}}
{ "price": 30000, "color": "绿", "make": "福特", "sold": "2020-05-18" }
{ "index": {}}
{ "price": 15000, "color": "蓝", "make": "丰田", "sold": "2020-07-02" }
{ "index": {}}
{ "price": 12000, "color": "绿", "make": "丰田", "sold": "2020-08-19" }
{ "index": {}}
{ "price": 20000, "color": "红", "make": "本田", "sold": "2020-11-05" }
{ "index": {}}
{ "price": 80000, "color": "红", "make": "宝马", "sold": "2020-01-01" }
{ "index": {}}
{ "price": 25000, "color": "蓝", "make": "福特", "sold": "2020-02-12" }

运行上述代码,响应结果:

二. 聚合为桶

1.聚合为桶语法介绍

首先,我们按照汽车的颜色color来划分桶,按照颜色分桶最好是使用Term Aggregation类型,按照颜色的名称来分桶。语法格式见下:

GET /索引库名称/_search
{
  "size": 0,
  "aggs": {
    "popular_colors": {
      "度量聚合方式": {
        "field": "字段名称"
      }
    }
  }
}

桶查询的相关属性介绍:

属性

描述

size

查询条数,这里设置为0,因为我们不关心搜索到的数据,只关心聚合结果,提高效率

aggs

声明这是一个聚合查询,是aggregations的缩写

popular_colors

给这次聚合起一个名字,可任意指定(建议做到见名知意)

terms

聚合的类型,这里选择terms,是根据词条内容(这里是颜色)划分

field

划分桶时依赖的字段

2.聚合为桶案例演示

根据汽车的颜色聚合为桶:

GET /car/_search
{
  "size": 0,
  "aggs": {
    "popular_colors": {
      "terms": {
        "field": "color"
      }
    }
  }
}

运行上述代码,响应结果:

{
  "took": 93,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 8,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "popular_colors": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "红",
          "doc_count": 4
        },
        {
          "key": "绿",
          "doc_count": 2
        },
        {
          "key": "蓝",
          "doc_count": 2
        }
      ]
    }
  }
}

输入的结果如下图所示:

桶查询响应结果的相关属性介绍:

属性

描述

hits

查询结果为空,因为我们设置了size为0

aggregations

聚合的结果

popular_colors

我们定义的聚合名称

buckets

查找到的桶,每个不同的color字段值都会形成一个桶

key

这个桶对应的color字段的值

doc_count

这个桶中的文档数量

通过聚合的结果我们发现,目前红色的小车比较畅销。

三. 桶内度量

1.桶内度量介绍

前面的例子告诉我们每个桶里面的文档数量,这很有用。 但通常,我们的应用需要提供更复杂的文档度量。 例如,每种颜色汽车的平均价格是多少?

因此,我们需要告诉Elasticsearch使用哪个字段,使用何种度量方式进行运算,这些信息要嵌套在桶内,度量的运算会基于桶内的文档进行。

桶内度量语法介绍:

GET /索引库名称/_search
{
  "size": 0,
  "aggs": {
    "聚合名称": {
      "度量聚合方式": {
        "field": "字段名称"
      },
      "aggs": {
        "聚合名称": {
          "度量类型": {
            "field": "字段名称"
          }
        }
      }
    }
  }
}

2.桶内度量案例

现在,我们为刚刚的聚合结果添加求价格平均值的度量。

GET /car/_search
{
  "size": 0,
  "aggs": {
    "popular_colors": {
      "terms": {
        "field": "color"
      },
      "aggs": {
        "avg_price": {
          "avg": {
            "field": "price"
          }
        }
      }
    }
  }
}

桶内度量相关属性介绍:

属性

描述

aggs

我们在上一个aggs(popular_colors)中添加新的aggs。可见度量也是一个聚合

avg_price

聚合的名称

avg

度量的类型,这里是求平均值

field

度量运算的字段

响应结果:

{
  "took": 43,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 8,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "popular_colors": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "红",
          "doc_count": 4,
          "avg_price": {
            "value": 32500
          }
        },
        {
          "key": "绿",
          "doc_count": 2,
          "avg_price": {
            "value": 21000
          }
        },
        {
          "key": "蓝",
          "doc_count": 2,
          "avg_price": {
            "value": 20000
          }
        }
      ]
    }
  }
}

可以看到每个桶中都有自己的avg_price字段,这是度量聚合的结果。

四. 结语

好了关于Elasticsearch中的聚合aggregations查询相关的内容袁老师就给大家介绍到这里,这一章节我们主要学习了聚合的基本概念,例如桶和度量。然后,带领大家通过综合案例的形式学习了如何聚合为桶,以及如何在桶内进行度量操作。关于Elasticsearch的聚合相关内容我们就给大家介绍到这里。下一小节我们带领同学们学习如何使用Elasticsearch进行集群相关的知识。

今天的内容就分享到这里吧。关注「袁庭新」,干货天天都不断!

相关推荐

  1. 前端系列ES6-ES12语法

    2024-03-26 09:16:02       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-26 09:16:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-26 09:16:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-03-26 09:16:02       82 阅读
  4. Python语言-面向对象

    2024-03-26 09:16:02       91 阅读

热门阅读

  1. 洛谷刷题 | B3621 枚举元组

    2024-03-26 09:16:02       39 阅读
  2. 每天一个数据分析题(二百二十七)

    2024-03-26 09:16:02       42 阅读
  3. Spark 检查点(checkpoint)

    2024-03-26 09:16:02       38 阅读
  4. ocr备份与管理

    2024-03-26 09:16:02       40 阅读
  5. 计算机网络(01)

    2024-03-26 09:16:02       44 阅读
  6. [HackMyVM]靶场RooterRun

    2024-03-26 09:16:02       32 阅读
  7. node.js 常见命令

    2024-03-26 09:16:02       38 阅读
  8. node.js 常用命令71条详解

    2024-03-26 09:16:02       33 阅读
  9. 【长度】中英文混合截取固定长度

    2024-03-26 09:16:02       35 阅读