【机器学习】ChatGLM2-6B 分词器 Tokenizer 的使用

目录

一、什么是分词器?

二、分词器的功能

2.1 分词器加载

2.2 分词

2.3 编码

2.4 解码


本文主要以 ChatGLM2-6B 模型为基础,介绍分词器的使用,ChatGLM2-6B 的部署可以参考ChatGLM2-6B 部署

一、什么是分词器?

分词器(Tokenizer)是一种将文本拆分成一系列词汇(Token)的工具。 在 NLP 中,Token 可以是一个单词、一个标点符号或者一个子词。

因为大模型只能识别数字,不能识别英文单词或者汉语的表示,所以需要将其转换为数字表示,通过唯一的 ID 表示一个词,这样就可以通过 ID 来唯一标识一个词。分词器首先将连续的文本切分成离散的词(Token),然后,为每个词分配一个唯一的标识符(ID),分词器可以实现编码和解析,类似于加解密算法。

二、分词器的功能

2.1 分词器加载

在使用分词器之前,需要先将分析器加载到内存。在 Transformer 框架中,分词器(Tokenizer)的加载主要依赖于 AutoTokenizer

相关推荐

  1. 机器学习ChatGLM2-6B 分词 Tokenizer 使用

    2024-07-14 10:28:02       35 阅读
  2. chatglm2-6b-prompt尝试

    2024-07-14 10:28:02       20 阅读
  3. 从零开始学ChatGLM2-6B 模型基于 P-Tuning v2 微调

    2024-07-14 10:28:02       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-14 10:28:02       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-14 10:28:02       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-14 10:28:02       58 阅读
  4. Python语言-面向对象

    2024-07-14 10:28:02       69 阅读

热门阅读

  1. PHP文字ocr识别接口示例、人工智能的发展

    2024-07-14 10:28:02       22 阅读
  2. 等保测评是做什么的

    2024-07-14 10:28:02       20 阅读
  3. Ubuntu 22.04.4 LTS (linux) 使用shc 加密 shell script

    2024-07-14 10:28:02       22 阅读
  4. 流程循环控制语句

    2024-07-14 10:28:02       24 阅读
  5. Perl 语言开发(十五):调试和测试

    2024-07-14 10:28:02       19 阅读
  6. 平衡三进制分布式计算

    2024-07-14 10:28:02       25 阅读
  7. RESTful API的设计与实现

    2024-07-14 10:28:02       24 阅读
  8. 39.全连接层问题

    2024-07-14 10:28:02       21 阅读
  9. 力扣题解(分割回文串II)

    2024-07-14 10:28:02       22 阅读
  10. Linux C++ 054-设计模式之外观模式

    2024-07-14 10:28:02       26 阅读
  11. 大白话【卷积神经网络】工作原理

    2024-07-14 10:28:02       25 阅读