ElasticSearch-分词器介绍

2024-07-23 05:24:04
开发
14

Analysis

Analysis文本分析，也叫分词，是把全文本转换为一系列单词的过程。

Analyzer的组成

通常Analyzer由三个部分组成。

Character Filters：针对原始文本处理，例如去除html标签等。
Tokenizer：按照一定的规则，对字符串进行切分单词。
Token Filter：将切分的单词进行加工、大小写转换、删除stopwords、增加同义词等。

ES中内置的分词器

Standard Analyzer：默认分词器，按词切分，小写处
Simple Analyzer：按照非字母切分（符号被过滤），小写处理
Stop Analyzer：小写处理，停用词过滤器（the、a、is等）
Whitespace Analyzer：按照空格切分，不转小写
Keyword Analyzer：不分词，直接将输入当作输出
Patter Analyzer：正则表达式，默认\W+(非字符分割)
Language：提供了30多种常见语言的分词器
Customer Analyzer：自定义分词器

Analyzer的使用

可以直接指定Analyzer进行分词测试。

举例：比如我们现在要查看一下ES是如何进行分词的。

GET /_analyze
{
  "analyzer": "standard",
  "text":"行人,蓝色衣服,黑色裤子,带帽子"
}

返回如下，可以看到分词结果。token表示分词的单词，start_offset表示单词在文档中的开始位置，end_offset表示单词在文档中的结束位置，type表示单词的类型（文本/数字…），position表示单词在文档中的位置。

{
  "tokens" : [
    {
      "token" : "行",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "人",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "蓝",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "色",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "衣",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "服",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    },
    {
      "token" : "黑",
      "start_offset" : 8,
      "end_offset" : 9,
      "type" : "<IDEOGRAPHIC>",
      "position" : 6
    },
    {
      "token" : "色",
      "start_offset" : 9,
      "end_offset" : 10,
      "type" : "<IDEOGRAPHIC>",
      "position" : 7
    },
    {
      "token" : "裤",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "<IDEOGRAPHIC>",
      "position" : 8
    },
    {
      "token" : "子",
      "start_offset" : 11,
      "end_offset" : 12,
      "type" : "<IDEOGRAPHIC>",
      "position" : 9
    },
    {
      "token" : "带",
      "start_offset" : 13,
      "end_offset" : 14,
      "type" : "<IDEOGRAPHIC>",
      "position" : 10
    },
    {
      "token" : "帽",
      "start_offset" : 14,
      "end_offset" : 15,
      "type" : "<IDEOGRAPHIC>",
      "position" : 11
    },
    {
      "token" : "子",
      "start_offset" : 15,
      "end_offset" : 16,
      "type" : "<IDEOGRAPHIC>",
      "position" : 12
    }
  ]
}

几种分词器介绍

Standard Analyzer

Standard Analyzer是ES中默认的分词器，它有几个规则：

按照单词进行切分
小写处理
它的Stop（词过滤器，is、the等）默认是关闭的。

Simple Analyzer

按照非字母切分，非字母的都会被去除
小写处理

Stop Analyzer

按照非字母切分，非字母的都会被去除
小写处理
多了stop filter，会将is、a、the等关键词去除

Whitespace Analyzer

按照空格进行切分

Keyword Analyzer

不进行分词，直接将输入当作一个term输出

Pattern Analyzer

通过正则表达式进行分词
默认是\W+，非字符的符号进行分割

Language Analyzer

可以指定不同的语言进行分词，比如English.

原文地址:https://blog.csdn.net/yimin_tank/article/details/140619212 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1815498067391156224.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部