camelot pdf提取表格实践(记录)

参考:
巧用Python的camelot库批量提取PDF发票信息
关于文本pdf的表格抽取

AttributeError: module ‘camelot‘ has no attribute ‘read_pdf‘及类似问题解决办法
camelot 参数

在这里插入图片描述
报错解决:
ModuleNotFoundError: No module named ‘Workbook’ xlwt,是版本太低,升级版本即可。 pip install --upgrade xlwt

介绍:
camelot方法有两种解析模式:流解析(stream)、格子解析(lattice),其中格子解析能够保留表格完整的样式,对于复杂表格来说要优于流解析模式。同时,camelot方法默认格子解析(lattice),而采用这种解析方式,需要安装ghostscript。

下载ghostscript https://www.ghostscript.com/releases/gsdnld.html

import camelot
import pandas as pd
# 使用Camelot读取PDF文件中的表格
tables = camelot.read_pdf('pdf.pdf', pages='all', flavor='lattice')

# 将所有表格转换为 DataFrame 并合并
all_data = pd.concat([table.df for table in tables], ignore_index=True)

all_data.to_excel('all_data.xlsx',index=False)

识别效果:不太理想,文本排序有问题。pdfplumber提取表格效果会更好,但是也有少部分数据可能错行
在这里插入图片描述

相关推荐

  1. pymupdf提取pdf表格表格数据合并

    2024-03-16 10:58:05       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-16 10:58:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-16 10:58:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-16 10:58:05       87 阅读
  4. Python语言-面向对象

    2024-03-16 10:58:05       96 阅读

热门阅读

  1. <爬虫部署,进阶Docker>----第一章 介绍Docker

    2024-03-16 10:58:05       43 阅读
  2. 浏览器 实现文件下载 完成回调 兼容ie11

    2024-03-16 10:58:05       47 阅读
  3. mysql笔记:20. 什么是数据库六大范式

    2024-03-16 10:58:05       46 阅读
  4. 如何在Flutter中实现网络请求

    2024-03-16 10:58:05       41 阅读
  5. ARM系统编译依赖无法安装

    2024-03-16 10:58:05       42 阅读
  6. HTML世界之标签Ⅳ

    2024-03-16 10:58:05       39 阅读
  7. 什么是web3.0

    2024-03-16 10:58:05       40 阅读