Bert中文预训练模型（Bert-base-chinese）

2024-07-16 02:58:01
开发
24

介绍

Bert-base-chinese模型是一个在简体和繁体中文文本上训练得到的预训练模型，具有以下特点：

12个隐层
输出768维张量
12个自注意力头
110M参数量

该模型的主要作用是获取每个汉字的向量表示，后续通过微调可应用于各种简体和繁体中文任务。

使用

import torch
from transformers import BertTokenizer, BertModel

# 第一步：离线下载
# from transformers import BertModel, BertTokenizer
# model_name = "bert-base-chinese"
# # 下载模型和分词器
# model = BertModel.from_pretrained(model_name)
# tokenizer = BertTokenizer.from_pretrained(model_name)
# # 保存模型和分词器到本地路径
# model.save_pretrained("./bert-base-chinese")
# tokenizer.save_pretrained("./bert-base-chinese")

# 第二步：加载模型和分词器
model_path = "./bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_path)
model = BertModel.from_pretrained(model_path)


def encode_text_with_bert(text):
    """
    使用bert-base-chinese模型对文本进行编码
    :param text: 输入的文本
    :return: 编码后的张量
    """
    # 使用tokenizer对文本进行编码，并去掉起始和结束标志
    encoded_text = tokenizer.encode(text)[1: -1]
    # 把列表转成张量
    encoded_tensor = torch.LongTensor([encoded_text])

    # 不自动进行梯度计算
    with torch.no_grad():
        output = model(encoded_tensor)

    # 返回编码后的张量(取last_hidden_state)
    return output[0]


if __name__ == '__main__':
    text1 = "你好，美丽中国"
    result = encode_text_with_bert(text1)
    print('text1编码的形状:', result.size())
    print('text1编码:\n', result)

text1编码的形状: torch.Size([1, 7, 768])
text1编码:
tensor([[[ 0.0781, -0.7386, -0.5120, ..., 1.0695, -0.4252, -0.3970],
[ 0.3118, -0.2283, -0.2513, ..., -0.0618, 0.8715, -0.0833],
[ 0.0287, -0.4937, -0.5554, ..., 0.1643, 0.8771, 0.0019],
...,
[-0.3068, -0.3406, 0.0525, ..., 0.5506, 0.8915, -0.3713],
[-0.1079, -0.0951, -0.1549, ..., 0.8432, 0.7255, -0.5235],
[-0.0414, -0.3786, 0.1590, ..., 0.3844, 0.7464, -0.4266]]])

原文地址:https://blog.csdn.net/weixin_74254879/article/details/140441514 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812924597163659264.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

Bert中文预训练模型（Bert-base-chinese）

介绍

使用

相关推荐

最近更新

热门阅读