Bert 将长段分成句子放在一个batch输入

from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务 上下句和mask,mask掩码就是需要预测的部分,上下句预测现在基本不用了 mask基本都会加上,mask 可以控制掩住哪里
使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的,方面情感分析 可以分为多少个方面类也比较重要

相关推荐

  1. Bert 分成句子放在一个batch输入

    2024-04-12 14:32:05       22 阅读
  2. C 练习实例75-输入一个整数,并其反转后输出

    2024-04-12 14:32:05       20 阅读
  3. Best Arm Identification in Batched Multi-armed Bandit Problems

    2024-04-12 14:32:05       32 阅读
  4. Bilstm双向短期神经网络多输入输出回归分析

    2024-04-12 14:32:05       19 阅读
  5. Bilstm双向短期神经网络多输入输出回归分析

    2024-04-12 14:32:05       13 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-12 14:32:05       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-12 14:32:05       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-12 14:32:05       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-12 14:32:05       20 阅读

热门阅读

  1. 掌握 Awk:Linux 文本处理的终极工具

    2024-04-12 14:32:05       21 阅读
  2. 后端项目部署教程

    2024-04-12 14:32:05       16 阅读
  3. Vue 3 中,defineExpose 在<script setup> 中的使用

    2024-04-12 14:32:05       15 阅读
  4. 使用列表递推实现螺旋矩阵

    2024-04-12 14:32:05       16 阅读
  5. 如何通过子网掩码来计算IP的地址范围

    2024-04-12 14:32:05       15 阅读