使用Python从PDF中提取文本 – 所有页面和输出 – 文件

2023年2月7日 252次阅读

我是
Python新手.

我正在使用此代码来提取文本.是否可以提取所有页面并在文件中输出？

import PyPDF2
pdf_file = open('sample.pdf','rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(10)
page_content = page.extractText()
print (page_content)

最佳答案使用循环提取每个页面的文本并将每个页面的文本写入单个文件.

import PyPDF2
with open('sample.pdf','rb') as pdf_file, open('sample.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   # use xrange in Py2
        page = read_pdf.getPage(page_number)
        page_content = page.extractText()
        text_file.write(page_content)