【python----pdfplumber的使用】处理文件的神器!

pdfplumber 是一个 Python 库,专门用于从 PDF 文档中提取信息。它提供了一种简单直观的方式来访问 PDF 的文本、图像和其他内容。

我在训练ai的过程中,由于直接导入的pdf文档,导致ai对pdf文档内容的信息读取不够准确,所以急需一个工具能将pdf中的数据提取出来,此时我就了解到了pdfplumber

我来讲一下我下载pdfplumber过程中的遇到的问题与解决办法

我的系统是win11 

大前提:一定要在虚拟环境下进入python环境!

不要ctrl+R进入cmd,直接进入powershell,在命令行中先切换到你创建的虚拟环境中,然后执行python命令,我的是python3,进入到python编译环境后,执行import pdfplumber,提示没有模块,

于是我使用命令再下载一下

安装成功后我又重新进入python中导包

import pdfplumber

发现报错还是没有这个模块:No module named 'pdfplumber'

问题解决:

其实这个问题就是我一开始强调的一定要在虚拟环境下进行

一直报错的原因就是我们使用的python.exe(python语言的解释器)不是虚拟环境下的python.exe

使用where python列出我们的目录下有哪些python.exe,然后找到虚拟环境下的的python.exe

直接切换到虚拟环境的目录下

现在就可以正常使用了,先用file_path,将你想提取内容的文件路径导入

再使用下面这段代码,将pdf中的第一页里面的内容提取出来,然后就能看到提取出来的内容了

 with pdfplumber.open(file_path) as pdf:
    first_page = pdf.pages[0]
    text = first_page.extract_text()
    print(text)\

相关推荐

  1. Python pdfplumber库:轻松解析PDF文件

    2024-07-20 12:24:03       27 阅读
  2. 程序员实用

    2024-07-20 12:24:03       36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 12:24:03       101 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 12:24:03       109 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 12:24:03       87 阅读
  4. Python语言-面向对象

    2024-07-20 12:24:03       96 阅读

热门阅读

  1. 很详细!接口使用教程(二)

    2024-07-20 12:24:03       28 阅读
  2. 分布式Session共享的5类技术方案,与优劣势比较

    2024-07-20 12:24:03       23 阅读
  3. 火星地图插件

    2024-07-20 12:24:03       25 阅读
  4. 白骑士的PyCharm教学目录

    2024-07-20 12:24:03       24 阅读
  5. Mathematical Problem

    2024-07-20 12:24:03       20 阅读
  6. 第六章 Spring框架深入学习(2023版本IDEA)

    2024-07-20 12:24:03       23 阅读
  7. IO文件流

    2024-07-20 12:24:03       26 阅读