巩固学习3

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个单词,这种手段就叫分词。而jieba是python计算生态中非常优秀的中文分词第三方库,需要通过安装来使用它。
简单来说,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果。当然,除了jieba自带的中文词库,用户也可以向其中增加自定义的词组,从而使jieba的分词更接近某些具体领域的使用
功能
分词
jieba常用的三种模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 返回 list。
jieba.Tokenizer(dictionary=DEFAULT_DICT) :使用该方法可以自定义分词器,可以同时使用不同的词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
jieba.cut 和 jieba.lcut 可接受的参数如下:
需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
cut_all:是否使用全模式,默认值为 False

HMM:用来控制是否使用 HMM 模型,默认值为 True

jieba.cut_for_search 和 jieba.lcut_for_search 接受 2 个参数:

需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

HMM:用来控制是否使用 HMM 模型,默认值为 True

需要注意的是,尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8。

jieba.lcut(s)精确模式,能够对一个字符串精确地返回分词结果,而分词的结果使用列表形式来组织
jieba.lcut(s,cut_all=True)
全模式,能够返回一个列表类型的分词结果,但结果存在冗余。
jieba.lcut_for_search(s)
搜索引擎模式,能够返回一个列表类型的分词结果,也存在冗余
jieba.add_word(w)
向分词词库添加新词w

CSV(Comma-Separated Values)是一种常见的电子文件格式,用于存储和交换结构化数据。它采用纯文本形式,以逗号作为字段之间的分隔符,每行表示一个数据记录。CSV文件具有简单、通用和易于处理的特点,在数据处理和数据交换方面被广泛应用

CSV文件由多行组成,每行表示一个数据记录。每行中的字段使用逗号进行分隔,字段之间可以包含文本、数字或日期等数据。文件的第一行通常用于定义字段名,后续行则包含相应的数据值。字段值可以使用引号或双引号进行包裹,以处理包含逗号或换行符的复杂数据。
优势:
简单易懂:CSV文件采用纯文本格式,易于理解和处理。
跨平台兼容:CSV文件可以在不同操作系统和软件之间进行交换和共享。
轻量级:CSV文件相对于其他复杂数据格式更加轻量级,占用较少的存储空间。
人类可读性:CSV文件采用纯文本形式,可以直接通过文本编辑器打开和查看。

相关推荐

  1. 巩固学习3

    2024-05-10 22:48:03       16 阅读
  2. 巩固学习4

    2024-05-10 22:48:03       8 阅读
  3. 巩固学习5

    2024-05-10 22:48:03       11 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-10 22:48:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-10 22:48:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-10 22:48:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-10 22:48:03       20 阅读

热门阅读

  1. nodejs后台babel在线热编译jsx

    2024-05-10 22:48:03       12 阅读
  2. Mac 报错 Zsh: command not found :brew

    2024-05-10 22:48:03       14 阅读
  3. npm详解

    2024-05-10 22:48:03       10 阅读
  4. C++ 类和对象:面向对象编程基础

    2024-05-10 22:48:03       9 阅读
  5. 【算法】高精度(string实现)

    2024-05-10 22:48:03       11 阅读
  6. object

    object

    2024-05-10 22:48:03      9 阅读
  7. Vue 数据校验

    2024-05-10 22:48:03       11 阅读
  8. Vue3 比 Vue2 有什么优势?

    2024-05-10 22:48:03       11 阅读
  9. 代码随想录|总结篇

    2024-05-10 22:48:03       10 阅读
  10. Linux——磁盘管理 parted

    2024-05-10 22:48:03       10 阅读
  11. 力扣 256. 粉刷房子 LCR 091. 粉刷房子 python AC

    2024-05-10 22:48:03       8 阅读