目录
本文主要以 ChatGLM2-6B 模型为基础,介绍分词器的使用,ChatGLM2-6B 的部署可以参考ChatGLM2-6B 部署。
一、什么是分词器?
分词器(Tokenizer)是一种将文本拆分成一系列词汇(Token)的工具。 在 NLP 中,Token 可以是一个单词、一个标点符号或者一个子词。
因为大模型只能识别数字,不能识别英文单词或者汉语的表示,所以需要将其转换为数字表示,通过唯一的 ID 表示一个词,这样就可以通过 ID 来唯一标识一个词。分词器首先将连续的文本切分成离散的词(Token),然后,为每个词分配一个唯一的标识符(ID),分词器可以实现编码和解析,类似于加解密算法。
二、分词器的功能
2.1 分词器加载
在使用分词器之前,需要先将分析器加载到内存。在 Transformer 框架中,分词器(Tokenizer)的加载主要依赖于 AutoTokenizer