PDF转TXT ChatGPT编程

1.目的

在Z-library找到一本书,只不过是PDF格式的,看的时候体验不好,还没有办法保存记录,就想着能不能转成txt格式放到手机自带的小说软件中看。
不想去网上找相关的软件,可以还需要付钱,所以尝试用ChatGPT来实现。

2.ChatGPT编程

提示词1:

我现在有一本书,格式是PDF的,需要把它转成TXT格式的,用python实现

生成代码 

import PyPDF2

# 打开PDF文件
pdf_file = open('noteacher.pdf', 'rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 创建一个空字符串来存储文本内容
text = ''

# 遍历PDF页面并提取文本
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()

# 关闭PDF文件
pdf_file.close()

# 将提取的文本内容写入TXT文件
with open('output_text_file.txt', 'w', encoding='utf-8') as txt_file:
    txt_file.write(text)

在上面的代码中,您需要将your_pdf_file.pdf替换为您要转换的PDF文件的路径。执行代码后,将生成一个名为output_text_file.txt的TXT文件,其中包含从PDF中提取的文本内容。 

txt效果不太好,PDF格式转变时是按照一定数目符号来进行换行,所以观看效果很割裂

 提示词2:

对于生成的txt文件,需要改变换行方式,先取消txt文件的换行,之后每识别到一个。才进行换行

 生成代码

import PyPDF2

# 打开PDF文件
pdf_file = open('your_pdf_file.pdf', 'rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 创建一个空字符串来存储文本内容
text = ''

# 遍历PDF页面并提取文本
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()

# 关闭PDF文件
pdf_file.close()

# 替换所有换行符为空白字符
text = text.replace('\n', ' ')

# 在每个识别到的换行符处手动添加换行符
final_text = ''
for char in text:
    if char == '\n':
        final_text += '\n'
    else:
        final_text += char

# 将提取的文本内容写入TXT文件
with open('output_text_file.txt', 'w', encoding='utf-8') as txt_file:
    txt_file.write(final_text)

此代码将先将所有的换行符替换为空白字符,然后在每个识别到的换行符处手动添加换行符,以满足您的需求。请替换your_pdf_file.pdf为您的PDF文件路径,并执行代码以生成TXT文件。

确实把换行符都换成了空白字符,但是并没有识别出“。”,也就没办法换行了 

 继续改进,提示词3:

识别到句号。这个符号才进行换行

生成代码

import PyPDF2

# 打开PDF文件
pdf_file = open('your_pdf_file.pdf', 'rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 创建一个空字符串来存储文本内容
text = ''

# 遍历PDF页面并提取文本
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()

# 关闭PDF文件
pdf_file.close()

# 替换所有换行符为空白字符
text = text.replace('\n', ' ')

# 在识别到句号时添加换行符
final_text = ''
for char in text:
    final_text += char
    if char == '.':
        final_text += '\n'

# 将提取的文本内容写入TXT文件
with open('output_text_file.txt', 'w', encoding='utf-8') as txt_file:
    txt_file.write(final_text)

效果同样不好,检查了一下,代码中的句号是英文的句号“.”,但是PDF中是中文的句号“。” 

将英文句号改成中文句号 ,代码为:

import PyPDF2

# 打开PDF文件
pdf_file = open('noteacher.pdf', 'rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 创建一个空字符串来存储文本内容
text = ''

# 遍历PDF页面并提取文本
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()

# 关闭PDF文件
pdf_file.close()

# 替换所有换行符为空白字符
text = text.replace('\n', ' ')

# 在识别到句号时添加换行符
final_text = ''
for char in text:
    final_text += char
    if char == '。':
        final_text += '\n'

# 将提取的文本内容写入TXT文件
with open('output_text_file4.txt', 'w', encoding='utf-8') as txt_file:
    txt_file.write(final_text)

这个看起来还行  

相关推荐

  1. base64PDF

    2024-04-12 23:56:03       38 阅读
  2. ABAP EXCEL PDF

    2024-04-12 23:56:03       27 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-12 23:56:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-12 23:56:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-12 23:56:03       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-12 23:56:03       20 阅读

热门阅读

  1. c#写的代码如何防止被反编译

    2024-04-12 23:56:03       19 阅读
  2. centos7的防火墙

    2024-04-12 23:56:03       14 阅读
  3. 获取cookie的方式

    2024-04-12 23:56:03       16 阅读
  4. LeetCode 27.移除元素

    2024-04-12 23:56:03       12 阅读
  5. Linux系统优化

    2024-04-12 23:56:03       14 阅读
  6. 个人博客项目笔记_04

    2024-04-12 23:56:03       13 阅读
  7. Object.assign详解

    2024-04-12 23:56:03       13 阅读
  8. c++成绩排名

    2024-04-12 23:56:03       15 阅读
  9. js中如何进行隐式类型转换

    2024-04-12 23:56:03       14 阅读
  10. 【5】c++多线程技术之线程间通信

    2024-04-12 23:56:03       14 阅读
  11. 个人博客项目笔记_02

    2024-04-12 23:56:03       14 阅读
  12. 【C语言】- C语言字符串函数详解

    2024-04-12 23:56:03       13 阅读