Python应用—从pdf文件中提取表格，并且保存在excel中

2024-07-18 09:38:03
开发
23

import pdfplumber
import pandas as pd


def extract_tables_to_excel(pdf_path, excel_path):
    # 打开PDF文件
    with pdfplumber.open(pdf_path) as pdf:
        # 创建一个空的DataFrame列表，用于存储所有表格数据
        all_tables = []

        # 遍历PDF的每一页
        for page in pdf.pages:
            # 提取当前页的表格
            tables = page.extract_tables()

            # 将每页的表格转换为DataFrame，并添加到all_tables列表中
            for table in tables:
                df = pd.DataFrame(table)
                all_tables.append(df)

        # 将所有表格数据合并为一个DataFrame
        combined_tables = pd.concat(all_tables, ignore_index=True)

        # 将合并后的表格数据保存到Excel文件中
        combined_tables.to_excel(excel_path, index=False)


# PDF文件路径
pdf_path = '1.pdf'
# Excel文件路径
excel_path = 'output_tables.xlsx'

# 调用函数
extract_tables_to_excel(pdf_path, excel_path)

原文地址:https://blog.csdn.net/weixin_55144746/article/details/140491541 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813750044541718528.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-18 09:38:03 85 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-18 09:38:03 71 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-18 09:38:03 66 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-18 09:38:03 70 阅读
NoSQL之Redis非关系型数据库

2024-07-18 09:38:03 73 阅读
2024.7.22 作业

2024-07-18 09:38:03 73 阅读
GDB调试正在运行的程序

2024-07-18 09:38:03 58 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-18 09:38:03 59 阅读
在Django里面运行非项目文件

2024-07-18 09:38:03 57 阅读
SSD基本架构与工作原理

2024-07-18 09:38:03 63 阅读
在誉天学习完HCIE就业吗？

2024-07-18 09:38:03 70 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-18 09:38:03 60 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-18 09:38:03 64 阅读
go 协程池的实现

2024-07-18 09:38:03 63 阅读
Shell脚本循环语句与函数

2024-07-18 09:38:03 64 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-18 09:38:03 69 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-18 09:38:03 61 阅读
四大引用——强软弱虚

2024-07-18 09:38:03 66 阅读
Python语言-面向对象

2024-07-18 09:38:03 68 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-18 09:38:03 62 阅读
网站安全-CDN篇

2024-07-18 09:38:03 63 阅读

热门阅读

PyCharm：PyCharm新建.py文件时自动带出指定内容

2024-07-18 09:38:03 22 阅读
cesium水面效果

2024-07-18 09:38:03 18 阅读
Window 安装Open Cascade

2024-07-18 09:38:03 19 阅读
c++ extern 关键字

2024-07-18 09:38:03 22 阅读
【题目/链表训练】链表

2024-07-18 09:38:03 23 阅读
【C++】C++ 文件模式标志

2024-07-18 09:38:03 23 阅读
nginx域名跳转到另一个域名

2024-07-18 09:38:03 22 阅读
PHP连接MySQL数据库

2024-07-18 09:38:03 22 阅读
Go语言中的并发

2024-07-18 09:38:03 24 阅读
构建gitlab远端服务器（check-＞build-＞test-＞deploy）

2024-07-18 09:38:03 20 阅读
数据建模标准-关系建模

2024-07-18 09:38:03 21 阅读
Django 请求和响应

2024-07-18 09:38:03 18 阅读
python转码%5b代表什么

2024-07-18 09:38:03 17 阅读
ios 设置行距和获取文本行数

2024-07-18 09:38:03 21 阅读
Qt Events 汇总整理

2024-07-18 09:38:03 17 阅读
(86)组合环路---＞(01)RGB值

2024-07-18 09:38:03 18 阅读
windows docker nvidia wsl2

2024-07-18 09:38:03 20 阅读
关于我在vue3中使用swiper的使用碰到swiper-slide的width特别大的这件事儿

2024-07-18 09:38:03 20 阅读
实验室系统

2024-07-18 09:38:03 21 阅读
bootstrapmb资源分享动态粒子特效

2024-07-18 09:38:03 19 阅读
详细说一下axios的特点

2024-07-18 09:38:03 22 阅读
log4j.appender.Logfile.File=./logs/its_log

2024-07-18 09:38:03 20 阅读
[M最短路] lc3112. 访问消失节点的最少时间(堆优化Dijkstra+最短路+模板题)

2024-07-18 09:38:03 23 阅读
昂科烧录器支持TI德州仪器的混合信号微控制器MSPM0L1106

2024-07-18 09:38:03 15 阅读
C#实现数据采集系统-ModbusTCP查询报文分析和实现、通信实现、测试项目

2024-07-18 09:38:03 21 阅读
成为CMake砖家(5): VSCode CMake Tools 插件基本使用

2024-07-18 09:38:03 20 阅读
七、python函数基础

2024-07-18 09:38:03 20 阅读
出海电商高效工具：美国云手机

2024-07-18 09:38:03 22 阅读
最大文件句柄数

2024-07-18 09:38:03 24 阅读
Junit单元测试常用断言

2024-07-18 09:38:03 25 阅读