python获取word文档和pdf文档页数的方法
1、获取pdf页码数
这里要使用到 pdfplumber 这个库,首先导入
没有安装的同学还需要先安装
pip install pdfplumber
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
官方教程
https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelerator
代码如下:
#获取pdf文档页数
def get_pdf_page(pdf_path):
try:
f = pdfplumber.open(pdf_path)
page = len(f.pages)
except PDFSyntaxError:
page = 0
return page
2、获取word文档页码数
这里我们需要用到pythoncom和win32com这两个库,先导入
import pythoncom
import win32com
代码如下
#获取word文档页数
def get_word_page(word_path):
pythoncom.CoInitialize()
# 调用word程序,不在前台显示
w = win32com.client.Dispatch("Word.Application")
w.Visible = 0
w.DisplayAlerts = 0
# 打开一个word文档
doc = w.Documents.Open(word_path)
# 获取总页数
w.ActiveDocument.Repaginate()
pages = w.ActiveDocument.ComputeStatistics(2)
print(pages)
# 保存并关闭
doc.SaveAs('test.docx')
doc.Close()
return pages