多核并行加速 tokenizer

import multiprocessing

def tokenize_text(text):
    return tokenizer(text, truncation=True, padding=True, max_length=256)

def parallel_tokenize(texts, num_processes=None):
    """使用多核并行处理文本分词"""
    with multiprocessing.Pool(processes=num_processes) as pool:
        tokenized_texts = list(tqdm(pool.imap(tokenize_text, texts), total=len(texts)))
    return tokenized_texts

tqdm 监控任务进度

  • 使用 imap 而不是 map:imap 是一个惰性版本的 map,它允许我们在处理过程中逐步获取结果,从而可以实时更新进度条。
  • 使用 tqdm 包裹 imap:通过将 tqdm 包裹在 pool.imap 外部,可以实时监控任务的进度。

在这里插入图片描述
在这里插入图片描述

相关推荐

  1. IPython并行编程指南:并发任务处理

    2024-07-16 15:24:04       22 阅读
  2. opencv 并行加速

    2024-07-16 15:24:04       28 阅读
  3. 使用Gunicorn提高Web应用的并发处理能力

    2024-07-16 15:24:04       24 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-16 15:24:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-16 15:24:04       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-16 15:24:04       58 阅读
  4. Python语言-面向对象

    2024-07-16 15:24:04       69 阅读

热门阅读

  1. 0基础学python-8:if,while,for

    2024-07-16 15:24:04       23 阅读
  2. RPC 的原理和示例

    2024-07-16 15:24:04       24 阅读
  3. Log4j的原理及应用详解(三)

    2024-07-16 15:24:04       24 阅读
  4. 【TFTP工具(Trivial File Transfer Protocol)】

    2024-07-16 15:24:04       22 阅读
  5. ssh升级

    ssh升级

    2024-07-16 15:24:04      24 阅读
  6. 什么是PHP?

    2024-07-16 15:24:04       22 阅读
  7. HDFS和ES

    2024-07-16 15:24:04       19 阅读
  8. 格雷编码

    2024-07-16 15:24:04       23 阅读
  9. 外呼系统用回拨模式打电话有什么优势

    2024-07-16 15:24:04       20 阅读
  10. datawhale【第二期】nlp

    2024-07-16 15:24:04       24 阅读
  11. DVC+Minio

    2024-07-16 15:24:04       19 阅读
  12. 力扣第208题“实现 Trie (前缀树)”

    2024-07-16 15:24:04       21 阅读
  13. 地暖管的选材

    2024-07-16 15:24:04       19 阅读
  14. easyexcel使用

    2024-07-16 15:24:04       20 阅读
  15. ubuntu报Unit firewalld.service could not be found.

    2024-07-16 15:24:04       18 阅读