读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。
txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码

下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。

text = """
这是第一段文本。  

- 1 -     

这是第二段文本。  

— 1 —  

这是第三段文本。  

1  

这是第四段文本。  

I  

这是第五段文本。  
"""
import re
# 匹配页码信息的正则表达式
page_nums = [
    r'\n- \d+ -( *?)\n',
    r'\n— \d+ —( *?)+\n',
    r'\n\d+( *?)\n',
    r'\nI+( *?)\n',
]

# 编译所有正则表达式,并准备替换为空字符串
patterns = [re.compile(pattern) for pattern in page_nums]

# 遍历所有正则表达式并替换匹配的文本
for pattern in patterns:
    text = pattern.sub('', text)

# 输出清理后的文本
print(text)

程序运行结果如下,删除掉页码之后的文本如下:
在这里插入图片描述

相关推荐

  1. Notepad++ 使用表达式删除空行空格方法

    2024-03-22 11:16:02       9 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-22 11:16:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-22 11:16:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-22 11:16:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-22 11:16:02       18 阅读

热门阅读

  1. Ubuntu20.04配置

    2024-03-22 11:16:02       21 阅读
  2. Elastic-Job 分布式任务调度

    2024-03-22 11:16:02       20 阅读
  3. Redis中的事务机制

    2024-03-22 11:16:02       17 阅读
  4. 脏牛提权漏洞

    2024-03-22 11:16:02       19 阅读
  5. C#面:什么是哈希表

    2024-03-22 11:16:02       23 阅读
  6. dfs剪枝

    dfs剪枝

    2024-03-22 11:16:02      16 阅读
  7. 构建Pytorch虚拟环境教程

    2024-03-22 11:16:02       18 阅读
  8. JVM常见启动参数

    2024-03-22 11:16:02       19 阅读
  9. Python实战:打包与分发setup.py与pip

    2024-03-22 11:16:02       19 阅读
  10. 【设计模式】第二讲:单例模式

    2024-03-22 11:16:02       17 阅读
  11. 大厂面试--使用Typescript 的优势有哪些?

    2024-03-22 11:16:02       17 阅读