【实战教程】python批量提取pdf文件中指定范围文字存储为txt文件

2024年3月20日 55次阅读来源: 搬运工_学童

解决问题：将一个文件夹里的所有上市公司年报的pdf文件利用开始和结尾关键字提取pdf文件指定范围的文本存储为txt文件，然后进行文本分析，文本分析的内容将放到下一个文章。

代码如下：先导入库，然后定义函数，定义函数部分不需要改动。

#导入所需的库
import os
import re
import pdfplumber

#从字符串中提取指定首尾的文字
def Get_text(start_str, end_str, source_str):
    start = source_str.find(start_str) #找到开始关键词对应的位置索引
    if start >= 0:
        start += len(start_str)
        end = source_str.find(end_str, start)#找到结束关键词对应的位置索引
        if end >= 0:
            return source_str[start:end].strip() #截取起始位置之间的字符


#定义写入txt的函数
def To_txt(filename, final_text):      #filename为写入文件的路径，data为要写入数据列表.
    file = open(filename + '.txt','a',encoding='utf8')
    file.write(filename + "\n")
    for i in range(len(final_text)):
        text = final_text[i]
        if i != len(final_text)-1:     #判断是否最后一个元素
            text

    原文作者：搬运工_学童
    原文地址: https://blog.csdn.net/Hig2020/article/details/121818877
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。