【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:
是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call
    在这里插入图片描述

  • 源码分析
    在这里插入图片描述
    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制
    在这里插入图片描述
    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。
    在这里插入图片描述
    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids
    在这里插入图片描述
    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

相关推荐

  1. NLP transformers - token 分类

    2024-07-10 13:36:04       28 阅读
  2. NLP常见tokenize方式及token类型

    2024-07-10 13:36:04       30 阅读
  3. nlptransformermask

    2024-07-10 13:36:04       65 阅读
  4. nlptokenizer用法

    2024-07-10 13:36:04       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 13:36:04       99 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 13:36:04       107 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 13:36:04       90 阅读
  4. Python语言-面向对象

    2024-07-10 13:36:04       98 阅读

热门阅读

  1. 简单滤波算法伪码

    2024-07-10 13:36:04       32 阅读
  2. Mongodb索引简介

    2024-07-10 13:36:04       25 阅读
  3. Linux 6种日志查看方法

    2024-07-10 13:36:04       26 阅读
  4. 案例研究(Case Study)是什么?怎么写?

    2024-07-10 13:36:04       29 阅读
  5. Linux虚拟化技术:从Xen到KVM

    2024-07-10 13:36:04       33 阅读
  6. 深度学习图片增强方式

    2024-07-10 13:36:04       28 阅读
  7. 什么是DNS欺骗

    2024-07-10 13:36:04       30 阅读
  8. leetcode hot 100 刷题记录

    2024-07-10 13:36:04       25 阅读
  9. 全面解析C#:现代编程语言

    2024-07-10 13:36:04       24 阅读
  10. 【深入探索】揭秘SQL Server的多重身份验证模式

    2024-07-10 13:36:04       30 阅读
  11. 短链接day3

    2024-07-10 13:36:04       28 阅读
  12. [C++基础]C++ 10个常用案例

    2024-07-10 13:36:04       29 阅读
  13. android paddingStart paddingLeft 使用区别

    2024-07-10 13:36:04       29 阅读
  14. 【ARMv8/v9 GIC 系列 5.7 -- 中断路由与系统寄存器】

    2024-07-10 13:36:04       26 阅读
  15. python在人工智能领域中的应用

    2024-07-10 13:36:04       35 阅读