在Elasticsearch IK分词器中更新、停用某些专有名词

在Elasticsearch IK分词器中更新、停用某些专有名词

目前IK分词器对于现有的新名词或者流行语没有做区分比如"白嫖" “奥利给”,或者对一些没有用的字比如 “的” "地"进行分词其实没有必要过多的分词只会占用宝贵的内存空间,所以如何更新或者停用某些字词呢
首先在IK 分词器目录中找到config目录然后找到IkAnalyzer.cfg.xml文件,在里面对文件进行修改
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>

ext.dic是IK分词器扩展字词的文件,如果config目录中没有则自己新建一个即可。然后就可以往里面输入 白嫖 奥里给 等等你需要添加的名称,记得每个都要换行
stopword.dic是IK分词器停用某些名词的文件,里面的字词将不在被分词处理,也不会被检索到,合理利用会极大的减少内存空间。

大家好,我是时生,站在巨人的肩膀做出一点点改变。欢迎批评,欢迎指正,欢迎共享,有事私信。
如果这篇文章对你有帮助,麻烦点个赞呗!

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-10 12:06:06       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-10 12:06:06       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-10 12:06:06       87 阅读
  4. Python语言-面向对象

    2024-03-10 12:06:06       96 阅读

热门阅读

  1. Vue3搭建后台管理系统模板

    2024-03-10 12:06:06       35 阅读
  2. 事件委托,数组去重

    2024-03-10 12:06:06       48 阅读
  3. Word Game

    Word Game

    2024-03-10 12:06:06      43 阅读
  4. kafka集成外部系统

    2024-03-10 12:06:06       39 阅读
  5. sql执行计划需要关注那些内容?

    2024-03-10 12:06:06       43 阅读
  6. rust的 || 是什么,怎么使用?

    2024-03-10 12:06:06       47 阅读
  7. MongoDB聚合运算符;$dateToString

    2024-03-10 12:06:06       48 阅读
  8. CSS:让动画流畅生动的缓动函数

    2024-03-10 12:06:06       40 阅读
  9. Vue/cli项目全局css使用

    2024-03-10 12:06:06       43 阅读
  10. Qt之插件

    2024-03-10 12:06:06       43 阅读
  11. 从重庆——看未来数字化发展与趋势

    2024-03-10 12:06:06       48 阅读
  12. 设计模式 单例模式

    2024-03-10 12:06:06       39 阅读
  13. c++单例模式和call_once函数

    2024-03-10 12:06:06       44 阅读