
在java应用中,使用itext库进行pdf文件操作是常见的需求,例如将多个pdf文档合并为一个。然而,当需要合并的pdf数量较多或单个文件体积较大时,开发者常常会遇到java.lang.outofmemoryerror: java heap space错误。这通常是因为程序在处理过程中尝试将所有合并后的pdf数据一次性加载到内存中,超出了jvm堆的可用空间。
原始代码片段中,合并后的PDF内容首先被写入到一个ByteArrayOutputStream:
public static byte[] mergePdf(List < InputStream > inputStreams) {
Document document = new Document();
ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream(); // 内存中的缓冲区
PdfCopy copy = new PdfSmartCopy(document, byteArrayOutputStream); // 写入到内存缓冲区
document.open();
for (InputStream inputStream: inputStreams) {
PdfReader pdfReader = new PdfReader(inputStream);
copy.addDocument(pdfReader);
copy.freeReader(pdfReader);
pdfReader.close();
}
document.close();
return byteArrayOutputStream.toByteArray(); // 将整个PDF数据转换为字节数组返回
}ByteArrayOutputStream的本质是一个内存缓冲区,它将所有写入的数据存储在JVM堆中。当合并后的PDF文件达到几十甚至上百兆字节时,ByteArrayOutputStream会随之膨胀,最终耗尽堆内存,导致OutOfMemoryError。尤其是在Web应用中,如果将这样的byte[]作为HTTP响应返回,内存压力会更大。
解决内存溢出的关键在于避免在内存中构建完整的PDF文件。iText的PdfCopy(或PdfSmartCopy)构造函数允许直接接受一个OutputStream作为输出目标。这意味着我们可以将合并后的PDF内容直接写入到文件系统、网络套接字或HTTP响应流中,而不是先存储在内存中。这种“流式处理”的方式极大地减少了内存占用,因为数据是边生成边写入,内存中只保留当前处理所需的小部分数据。
以下是优化后的mergePdfsToStream方法,它接受一个OutputStream作为参数,将合并后的PDF直接写入该流:
import com.itextpdf.text.Document;
import com.itextpdf.text.pdf.PdfCopy;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.PdfSmartCopy;
import com.itextpdf.text.DocumentException; // 导入必要的异常类
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.List;
/**
* PDF合并工具类,支持将多个PDF输入流合并到一个输出流中,避免内存溢出。
*/
public class PdfMergeUtil {
/**
* 将多个PDF输入流合并到一个指定的输出流中。
* 此方法通过直接将PDF内容写入输出流,避免了在内存中缓存整个合并后的PDF文件,
* 从而有效解决了处理大型或大量PDF文件时的内存溢出问题。
*
* @param inputStreams 待合并的PDF输入流列表。每个InputStream代表一个PDF文件。
* @param outputStream 合并后PDF的目标输出流。例如,可以是FileOutputStream或HttpServletResponse的OutputStream。
* @throws DocumentException 如果iText在处理PDF文档时发生错误。
* @throws IOException 如果在读写流时发生I/O错误。
* @throws Exception 其他可能发生的异常。
*/
public static void mergePdfsToStream(List<InputStream> inputStreams, OutputStream outputStream) throws Exception {
Document document = new Document();
PdfCopy copy = null; // 使用PdfCopy或PdfSmartCopy
try {
// 将合并后的PDF内容直接写入到传入的outputStream
copy = new PdfSmartCopy(document, outputStream);
document.open(); // 打开文档,开始写入
for (InputStream inputStream : inputStreams) {
PdfReader pdfReader = null;
try {
pdfReader = new PdfReader(inputStream);
copy.addDocument(pdfReader); // 添加当前PDF文档
copy.freeReader(pdfReader); // 释放PdfReader相关的内存资源,重要!
} finally {
// 确保PdfReader和对应的InputStream被关闭
if (pdfReader != null) {
try {
pdfReader.close();
} catch (Exception e) {
System.err.println("Error closing PdfReader: " + e.getMessage());
}
}
if (inputStream != null) {
try {
inputStream.close();
} catch (IOException e) {
System.err.println("Error closing InputStream: " + e.getMessage());
}
}
}
}
} finally {
// 确保Document被关闭,这会完成PDF的写入并关闭底层的OutputStream(如果由Document管理)
// 注意:对于传入的OutputStream,通常不在此处关闭,而是由调用者管理其生命周期。
if (document.isOpen()) {
document.close();
}
}
}
}以下是如何使用mergePdfsToStream方法将多个PDF文件合并到一个新的本地文件,或在Web应用中直接作为HTTP响应发送的示例:
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.ArrayList;
import java.util.List;
// 假设 PdfMergeUtil 类已存在于项目中
public class Main {
public static void main(String[] args) {
List<InputStream> pdfInputs = new ArrayList<>();
try {
// 1. 准备待合并的PDF文件输入流
// 实际应用中,这些路径应替换为你的PDF文件路径
pdfInputs.add(new FileInputStream("path/to/document1.pdf"));
pdfInputs.add(new FileInputStream("path/to/document2.pdf"));
// 可以添加更多文件...
// pdfInputs.add(new FileInputStream("path/to/document3.pdf"));
// 2. 合并到本地文件
String outputFilePath = "merged_output.pdf";
try (FileOutputStream fos = new FileOutputStream(outputFilePath)) {
PdfMergeUtil.mergePdfsToStream(pdfInputs, fos);
System.out.println("PDFs successfully merged to: " + outputFilePath);
}
// 3. 模拟Web应用中作为HTTP响应发送(伪代码)
// 在实际的Web框架(如Spring MVC, Servlet)中,你会从HttpServletResponse获取OutputStream
/*
HttpServletResponse response = ...; // 从请求上下文中获取
response.setContentType("application/pdf"); // 设置MIME类型
response.setHeader("Content-Disposition", "attachment; filename=\"merged_report.pdf\""); // 设置下载文件名
try (OutputStream responseOutputStream = response.getOutputStream()) {
// 重新准备输入流,因为上一步已经关闭了
List<InputStream> webPdfInputs = new ArrayList<>();
webPdfInputs.add(new FileInputStream("path/to/document1.pdf"));
webPdfInputs.add(new FileInputStream("path/to/document2.pdf"));
// ... 添加更多文件
PdfMergeUtil.mergePdfsToStream(webPdfInputs, responseOutputStream);
System.out.println("PDFs sent as HTTP response.");
} finally {
// 确保为Web响应准备的输入流也被关闭
for (InputStream is : webPdfInputs) {
try {
if (is != null) is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
*/
} catch (Exception e) {
System.err.println("Error during PDF merge operation: " + e.getMessage());
e.printStackTrace();
} finally {
// 确保所有在外部创建的输入流都被关闭
for (InputStream is : pdfInputs) {
try {
if (is != null) is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}资源管理:
异常处理:
PdfSmartCopy vs PdfCopy:
内存效率:
当使用iText合并PDF文件并遇到OutOfMemoryError时,核心问题通常在于将整个输出PDF缓存在内存中。通过将合并后的PDF内容直接流式写入到目标OutputStream(无论是文件输出流、网络输出流还是HTTP响应输出流),可以有效地规避内存溢出问题。这种设计模式不仅提升了内存效率,也使得应用程序能够更健壮地处理大规模的PDF合并任务。始终遵循良好的资源管理习惯,确保所有流和iText对象都被正确关闭,是编写高效、稳定的PDF处理代码的关键。
以上就是iText PDF合并的内存优化策略:避免OutOfMemoryError的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号