[nlp] id2str的vocab.json转换为str2id

import json

# 加载包含ID对应字符串的JSON文件
with open("base_vocab.json", "r", encoding='utf-8') as file:
    id_to_str = json.load(file)

# 将ID对应字符串的JSON转换为字符串对应ID的JSON
# 注意:这里我们假设id_to_str字典的键都是字符串类型
str_to_id = {value: int(key) for key, value in id_to_str.items()}

# 将结果保存为JSON文件
with open("base_vocab_str_to_id.json", "w", encoding='utf-8') as file:
    # 确保设置 `ensure_ascii=False` 以正确保存非ASCII字符
    # 并且 `sort_keys=True` 可以让输出的JSON文件按照键排序,便于查看
    json.dump(str_to_id, file, ensure_ascii=False, sort_keys=True, indent=4)

# 保存vocab.txt

with open("vocab.txt", "w") as file:
    for word in str_to_id:
        file.write(word+"\n")

        在这段代码中,我们首先打开并读取原始的JSON文件,它包含了从ID到字符串的映射。我们使用一个字典推导式来创建一个新的字典,这个字典将字符串映射到它们对应的ID(注意,我们假设原始字典的键都是字符串类型,如果原始的ID不是字符串,则需要修改代码以适应

相关推荐

  1. [nlp] id2strvocab.json转换str2id

    2023-12-06 20:52:05       50 阅读
  2. <span style='color:red;'>STM</span>32day<span style='color:red;'>2</span>

    STM32day2

    2023-12-06 20:52:05      36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-06 20:52:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-06 20:52:05       106 阅读
  3. 在Django里面运行非项目文件

    2023-12-06 20:52:05       87 阅读
  4. Python语言-面向对象

    2023-12-06 20:52:05       96 阅读

热门阅读

  1. 微信小程序如何分包管理

    2023-12-06 20:52:05       60 阅读
  2. PHP常见错误

    2023-12-06 20:52:05       51 阅读
  3. 微信小程序开发步骤及简单开发案例

    2023-12-06 20:52:05       48 阅读
  4. 每日一题(LeetCode)----字符串--重复的子字符串

    2023-12-06 20:52:05       74 阅读
  5. Pytorch:torch.optim详解

    2023-12-06 20:52:05       51 阅读