【Python】Python 批量转换PDF到Excel

PDF是面向展示和打印使用的,并未考虑编辑使用,所以缺少了很多编辑属性且非常难修改PDF里面的数据。当您需要分析或修改PDF文档数据时,可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴且可轻松编辑。本文将介绍如何使用  Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。


安装Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF
1.
转换PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:

创建一个 PdfDocument 对象
使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("Sample.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()

将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下:

总结:
除了将 PDF保存为Excel, Spire.PDF for python还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如 PDF to PNG, JPG,BMP等。
 

相关推荐

  1. 【Python】Python 批量转换PDFExcel

    2023-12-25 06:18:02       54 阅读
  2. EXCEL VBA 多sheet批量转转PDF

    2023-12-25 06:18:02       34 阅读
  3. html转换pdf

    2023-12-25 06:18:02       26 阅读
  4. PySimpleGUI界面读取PDF转换Excel

    2023-12-25 06:18:02       55 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-25 06:18:02       91 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-25 06:18:02       97 阅读
  3. 在Django里面运行非项目文件

    2023-12-25 06:18:02       78 阅读
  4. Python语言-面向对象

    2023-12-25 06:18:02       88 阅读

热门阅读

  1. UE 动画系统框架介绍及使用

    2023-12-25 06:18:02       59 阅读
  2. python入门实战经典15题

    2023-12-25 06:18:02       47 阅读
  3. SpringBoot Gateway整合过程中的问题

    2023-12-25 06:18:02       77 阅读
  4. Spring DefaultListableBeanFactory源码分析

    2023-12-25 06:18:02       52 阅读
  5. Python jupyter notebook 自定义魔术方法

    2023-12-25 06:18:02       50 阅读
  6. conda镜像源,Jupyter内核配置

    2023-12-25 06:18:02       56 阅读
  7. EtherCAT主站SOEM -- 11 -- EtherCAT从站 XML 文件解析

    2023-12-25 06:18:02       48 阅读
  8. 【PostgreSQL表增加/删除字段是否会重写表】

    2023-12-25 06:18:02       47 阅读