【机器学习】ChatGLM2-6B 分词器 Tokenizer 的使用

2024-07-14 10:28:02
开发
34

目录

一、什么是分词器？

二、分词器的功能

2.1 分词器加载

本文主要以 ChatGLM2-6B 模型为基础，介绍分词器的使用，ChatGLM2-6B 的部署可以参考ChatGLM2-6B 部署。

一、什么是分词器？

分词器（Tokenizer）是一种将文本拆分成一系列词汇（Token）的工具。在 NLP 中，Token 可以是一个单词、一个标点符号或者一个子词。

因为大模型只能识别数字，不能识别英文单词或者汉语的表示，所以需要将其转换为数字表示，通过唯一的 ID 表示一个词，这样就可以通过 ID 来唯一标识一个词。分词器首先将连续的文本切分成离散的词（Token），然后，为每个词分配一个唯一的标识符（ID），分词器可以实现编码和解析，类似于加解密算法。

二、分词器的功能

2.1 分词器加载

在使用分词器之前，需要先将分析器加载到内存。在 Transformer 框架中，分词器（Tokenizer）的加载主要依赖于 AutoTokenizer

原文地址:https://blog.csdn.net/u011074149/article/details/140336109 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812313071360806912.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-14 10:28:02 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-14 10:28:02 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-14 10:28:02 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-14 10:28:02 71 阅读
NoSQL之Redis非关系型数据库

2024-07-14 10:28:02 74 阅读
2024.7.22 作业

2024-07-14 10:28:02 74 阅读
GDB调试正在运行的程序

2024-07-14 10:28:02 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-14 10:28:02 60 阅读
在Django里面运行非项目文件

2024-07-14 10:28:02 58 阅读
SSD基本架构与工作原理

2024-07-14 10:28:02 64 阅读
在誉天学习完HCIE就业吗？

2024-07-14 10:28:02 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-14 10:28:02 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-14 10:28:02 65 阅读
go 协程池的实现

2024-07-14 10:28:02 64 阅读
Shell脚本循环语句与函数

2024-07-14 10:28:02 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-14 10:28:02 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-14 10:28:02 62 阅读
四大引用——强软弱虚

2024-07-14 10:28:02 67 阅读
Python语言-面向对象

2024-07-14 10:28:02 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-14 10:28:02 64 阅读
网站安全-CDN篇

2024-07-14 10:28:02 64 阅读

热门阅读

PHP文字ocr识别接口示例、人工智能的发展

2024-07-14 10:28:02 22 阅读
等保测评是做什么的

2024-07-14 10:28:02 20 阅读
PDF公式转Latex

2024-07-14 10:28:02 30 阅读
【花雕学编程】Arduino FOC 之无刷电机轮式机器人

2024-07-14 10:28:02 22 阅读
Ubuntu 22.04.4 LTS (linux) 使用shc 加密 shell script

2024-07-14 10:28:02 22 阅读
Meta即将推出4000亿的Llama 3 超级AI模型，或将改写大语言模型竞争格局！｜TodayAI

2024-07-14 10:28:02 27 阅读
如何防止被恶意刷接口？

2024-07-14 10:28:02 29 阅读
流程循环控制语句

2024-07-14 10:28:02 24 阅读
毕业设计之python医疗问句中的实体识别算法的研究（python完整源码+说明文档+演示视频）

2024-07-14 10:28:02 30 阅读
《昇思25天学习打卡营第18天|基于MobileNetv2的垃圾分类》

2024-07-14 10:28:02 19 阅读
【ARM】CCI集成指导整理

2024-07-14 10:28:02 20 阅读
数据结构（初阶3.单链表）

2024-07-14 10:28:02 24 阅读
从0开始学习informer

2024-07-14 10:28:02 27 阅读
海康相机GrabImage

2024-07-14 10:28:02 16 阅读
Perl 语言开发（十五）：调试和测试

2024-07-14 10:28:02 19 阅读
万界星空科技MES系统：食品加工安全的实时监控与智能管理

2024-07-14 10:28:02 20 阅读
springboot个人健康信息管理小程序-计算机毕业设计源码

2024-07-14 10:28:02 17 阅读
平衡三进制分布式计算

2024-07-14 10:28:02 25 阅读
Codeforces Round 957 (Div. 3) F. Valuable Cards

2024-07-14 10:28:02 26 阅读
C++之多态使用小结

2024-07-14 10:28:02 22 阅读
RESTful API的设计与实现

2024-07-14 10:28:02 24 阅读
【2024】windows如何自定义目录安装rust

2024-07-14 10:28:02 18 阅读
全国297个地级市 2006年-2021年绿地面积、建成区绿化覆盖率（数据整理）

2024-07-14 10:28:02 26 阅读
39.全连接层问题

2024-07-14 10:28:02 21 阅读
代码随想录算法训练营第32天 | 第九章动态规划05

2024-07-14 10:28:02 29 阅读
【无标题】

2024-07-14 10:28:02 24 阅读
力扣题解（分割回文串II）

2024-07-14 10:28:02 22 阅读
红色文化3D虚拟数字展馆搭建意义深远

2024-07-14 10:28:02 25 阅读
Linux C++ 054-设计模式之外观模式

2024-07-14 10:28:02 26 阅读
大白话【卷积神经网络】工作原理

2024-07-14 10:28:02 25 阅读