Bert 将长段分成句子放在一个batch输入

2024-04-12 14:32:05
开发
21

from nltk.tokenize import RegexpTokenizer

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
# 按照自己的规则进行分词,使用正则分词器
# \w 匹配字母、数字、下划线
# 匹配任何非空白字符
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
print(tokenizer.tokenize(sentence))

bert的任务上下句和mask，mask掩码就是需要预测的部分，上下句预测现在基本不用了 mask基本都会加上，mask 可以控制掩住哪里
使用预训练模型时候要注意预训练的权重是在什么类型的数据集上训练的，方面情感分析可以分为多少个方面类也比较重要

原文地址:https://blog.csdn.net/weixin_42802447/article/details/126236079 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1778672415245733888.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

Bert 将长段分成句子放在一个batch输入

相关推荐

最近更新

热门阅读