java使用pdfbox拆分PDF文件

2024年1月20日 280次阅读来源: 浪的飞起

文章目录

一、需求

将一个PDF文件按页拆分成多个PDF，或者将某一页中某一部分内容单独拆分出来作为一个新的PDF

二、准备

本文使用pdfbox实现，因此需要先导入pdfbox的依赖

		<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.25</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>jbig2-imageio</artifactId>
            <version>3.0.2</version>
        </dependency>

三、功能开发

1.按页拆分

代码如下（示例）：

    public static void splitPdf(File sourceFile) throws IOException { 
        splitPdf(sourceFile, 1);
    }

    public static void splitPdf(File sourceFile, String targetPath) throws IOException { 
        splitPdf(sourceFile, targetPath, 1);
    }

    public static void splitPdf(File sourceFile, Integer pageStep) throws IOException { 
        splitPdf(sourceFile, sourceFile.getParentFile().getPath(), 1);
    }

    /** * @return void * @Description //TODO pdf拆分，结果命名规则为原文件名-startPage_endPage.pdf * @Date 2022/2/16 10:20 * @Param [sourceFile：要拆分的pdf文件, targetPath：结果输出目录, pageStep：以多少页为基准拆分] **/
    public static void splitPdf(File sourceFile, String targetPath, Integer pageStep) throws IOException { 
        String fileName = sourceFile.getName().replace(".pdf", "");
        PDDocument document = PDDocument.load(sourceFile);
        int pageSize = document.getNumberOfPages();
        int count = pageSize / pageStep + (pageSize % pageStep == 0 ? 0 : 1);
        log.info("pageSize : {}, pageStep : {}, count : {}", pageSize, pageStep, count);
        PDDocument doc = new PDDocument();
        PDPage page = null;
        String splitName = null;
        for (int i = 0; i < count; i++) { 
            PDFContentTool.clearDocument(doc);
            int startPage = i * pageStep;
            int endPage = startPage + pageStep;
            if (endPage > pageSize) { 
                endPage = pageSize;
            }
            splitName = fileName + "-" + (startPage + 1) + "_" + endPage + ".pdf";
            for (int index = startPage; index < endPage; index++) { 
                page = document.getPage(index);
                doc.addPage(page);
            }
            File outFile = new File(targetPath, splitName);
            doc.save(outFile);
        }
        document.close();
        doc.close();
    }

    /** * @return void * @Description //TODO pdf拆分，结果命名规则为原文件名-startPage_endPage.pdf * @Date 2022/2/16 10:20 * @Param [sourceFile：要拆分的pdf文件, targetPath：结果输出目录, pageIndex,：从哪里开始拆分] **/
    public static void splitPdfWithPageIndex(File sourceFile, String targetFile, Integer pageIndex) throws IOException { 
        splitPdfWithPageIndex(sourceFile,targetFile,pageIndex,1);
    }

    /** * @return void * @Description //TODO pdf拆分，结果命名规则为原文件名-startPage_endPage.pdf * @Date 2022/2/16 10:20 * @Param [sourceFile 要拆分的pdf文件, targetFile 结果输出目录, pageIndex 从哪里开始拆分, totalPages 总共拆出多少页] **/
    public static void splitPdfWithPageIndex(File sourceFile, String targetFile, Integer pageIndex, Integer totalPages) throws IOException { 
        PDDocument document = PDDocument.load(sourceFile);
        PDDocument doc = new PDDocument();
        PDPage page = null;
        for (int index = pageIndex; index < pageIndex + totalPages; index++) { 
            page = document.getPage(index - 1);
            doc.addPage(page);
        }
        doc.save(targetFile);
        document.close();
        doc.close();
    }

代码解析：
splitPdf：splitPdf的作用在于将一个pdf以pageStep为步长，按照没pageStep页拆分一个PDF的规则将整个PDF文件全部拆出。
splitPdfWithPageIndex：splitPdfWithPageIndex的作用在于将一个PDF文件从pageIndex位置开始，选totalPages页数据，生成一个新的PDF文件。

2.PDF切分

将PDF中某一部分内容拆分出来，这一部分的处理思路是先将PDF文件转换成图片，然后采用截图的方式将需要的内容截取出来生成新的图片，然后再将这个图片转换成PDF文件。
PDF转换图片的部分在java使用pdfbox将PDF转化为图片这一篇中有描述，感兴趣的可以去看看

代码如下（示例）：

    public static BufferedImage splitPdfWithImage(PDDocument document, Integer page) throws IOException { 
        PDFRenderer renderer = new PDFRenderer(document);
        BufferedImage bufferedImage = renderer.renderImage(page - 1, 5);
        return bufferedImage;
    }

    public static void cutPdfWithImage(PDDocument document, CutInfoEntity cutInfo) throws IOException { 
        File file = new File(cutInfo.getOutFile());
        cutPdfWithImage(document, cutInfo.getPage(), cutInfo.getReceiptCount(), cutInfo.getCutRange().getStart(), cutInfo.getCutRange().getEnd(), file);
    }

    public static void cutPdfWithImage(PDDocument document, Integer page, Integer receiptCount, Integer start, Integer end, String outFile) throws IOException { 
        File file = new File(outFile);
        cutPdfWithImage(document, page, receiptCount, start, end, file);
    }

    /** * @Description //TODO 纵向切分，切分内容为宽为PDF文件宽度，高为制动高度的矩形区域 * @Date 2022/3/4 16:35 * @Param [document 要切分的PDF文件 * page表示要切分的内容在第几页 * receiptCount 本工具哟用于拆分银行回单，一页可能有多张回单，这个参数表示一页PDF有多少张。主要用于计算切分后的内容转换成A4大小的PDF时的高度。 * start 从x轴哪个位置开始切分 * end 切到那个位置 * outFile 输出文件 * @return void **/
    public static void cutPdfWithImage(PDDocument document, Integer page, Integer receiptCount, Integer start, Integer end, File outFile) throws IOException { 
        BufferedImage image = splitPdfWithImage(document, page);
        int subWidth = image.getWidth();
        int subHeight = end - start;

        image = image.getSubimage(0, start, subWidth, subHeight);

        PDDocument outDocument = new PDDocument();

        PDImageXObject imageXObject = LosslessFactory.createFromImage(outDocument, image);
        PDPage pdPage = new PDPage(PDRectangle.A4);

        PDPage documentPage = document.getPage(page - 1);
        PDResources resources = documentPage.getResources();
        Iterable<COSName> fontNames = resources.getFontNames();
        for (COSName cosName : fontNames) { 
            PDFont font = resources.getFont(cosName);
            PDResources pdResources = pdPage.getResources();
            if (pdResources == null) { 
                pdResources = new PDResources();
                pdPage.setResources(pdResources);
            }
            pdPage.getResources().put(cosName, font);
        }

        outDocument.addPage(pdPage);
        PDPageContentStream pageContentStream = new PDPageContentStream(outDocument, pdPage);
        float height = pdPage.getMediaBox().getHeight() / receiptCount;
        float y = pdPage.getMediaBox().getHeight() - height;
        pageContentStream.drawImage(imageXObject, 0, y, pdPage.getMediaBox().getWidth(), height);
        pageContentStream.close();

        if (!outFile.getParentFile().exists()) { 
            outFile.getParentFile().mkdirs();
        }

        outDocument.save(outFile);
        outDocument.close();
    }

    原文作者：浪的飞起
    原文地址: https://blog.csdn.net/kxyr000/article/details/123278125
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。