使用Java和Apache PDFBox实现PDF文本搜索与文件操作-java教程-PHP中文网

使用Java和Apache PDFBox实现PDF文本搜索与文件操作

本教程详细介绍了如何使用java 编程语言结合apache pdfbox库，高效且准确地在pdf文件中搜索指定文本。文章将指导读者完成pdf内容的提取、文本搜索逻辑的实现，并根据搜索结果进行文件复制或移动等操作，确保pdf文件的完整性，避免直接将pdf作为普通文本文件处理可能导致的问题。

1. 理解PDF文件与文本搜索的挑战

PDF（Portable Document Format）文件是一种复杂的二进制格式，它不仅包含文本信息，还包含字体、图像、布局、元数据等多种元素。因此，直接使用Java的 FileReader 或 BufferedReader 对PDF文件进行逐行读取，并尝试使用 String.contains() 进行文本搜索是不可行的。这种方法会将PDF文件的二进制内容当作普通文本来处理，导致读取到的内容是乱码，无法进行有效搜索，甚至可能在后续的文件操作中破坏PDF文件的结构。

为了准确地从PDF文件中提取可读文本并进行搜索，我们需要借助专门的PDF处理库来解析PDF文件的内部结构。

2. 引入Apache PDFBox库

Apache PDFBox是一个开源的Java库，用于处理PDF文档。它提供了丰富的功能，包括创建新PDF文档、修改现有文档、从PDF中提取文本、渲染PDF页面为图像等。对于从PDF中提取文本的需求，PDFBox是业界标准且高效的选择。

要在项目中引入PDFBox，如果您使用Maven，可以在 pom.xml 文件中添加以下依赖：

立即学习“Java免费学习笔记（深入）”；

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version> <!-- 请使用最新稳定版本 -->
</dependency>

登录后复制

如果您使用Gradle，可以在 build.gradle 文件中添加：

implementation 'org.apache.pdfbox:pdfbox:2.0.29' // 请使用最新稳定版本

登录后复制

3. 从PDF文件中提取文本

使用PDFBox从PDF文件中提取文本的基本步骤如下：

加载PDF文档： 使用 PDDocument.load() 方法加载一个PDF文件。
创建文本提取器： 实例化 PDFTextStripper 类，它是PDFBox中用于提取文本的核心组件。
提取文本： 调用 PDFTextStripper 对象的 getText() 方法，传入加载的 PDDocument 对象，即可获取PDF文档的全部文本内容。
关闭文档： 务必调用 PDDocument.close() 方法来释放资源，特别是在处理大量PDF文件时，这可以避免内存泄漏。

以下是一个简单的示例代码，演示如何从PDF文件中提取所有文本并打印到控制台：

AI帮个忙

多功能AI小工具，帮你快速生成周报、日报、邮、简历等

116

查看详情

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfTextExtractor {

    /**
     * 从指定的PDF文件中提取所有文本内容。
     * @param pdfFilePath PDF文件的路径
     * @return 提取到的文本内容
     * @throws IOException 如果文件操作失败
     */
    public static String extractTextFromPdf(String pdfFilePath) throws IOException {
        File file = new File(pdfFilePath);
        // 使用 try-with-resources 确保 PDDocument 资源被正确关闭
        try (PDDocument document = PDDocument.load(file)) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            return pdfStripper.getText(document);
        }
    }

    public static void main(String[] args) {
        String pdfPath = "D:\Sample.pdf"; // 替换为您的PDF文件路径
        try {
            String text = extractTextFromPdf(pdfPath);
            System.out.println("从PDF中提取的文本内容：
" + text.substring(0, Math.min(text.length(), 500)) + "..."); // 打印部分内容
        } catch (IOException e) {
            System.err.println("读取PDF文件时发生错误：" + e.getMessage());
            e.printStackTrace();
        }
    }
}

登录后复制

4. 实现PDF文本搜索逻辑

一旦我们能够从PDF文件中提取出完整的文本内容，接下来的文本搜索就变得和处理普通字符串一样简单了。我们可以使用 String.contains() 方法来检查提取出的文本是否包含目标关键词。

为了使搜索功能更灵活，我们可以：

忽略大小写： 将提取出的文本和搜索关键词都转换为小写或大写进行比较。
支持多词搜索： 循环处理多个关键词，或者使用正则表达式进行更复杂的匹配。

以下代码片段展示了如何结合用户输入和 String.contains() 进行文本搜索：

import java.io.File;
import java.io.IOException;
import java.util.Scanner;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfSearcher {

    /**
     * 检查PDF文件是否包含指定的关键词。
     * @param pdfFilePath PDF文件的路径
     * @param searchTerm 要搜索的关键词
     * @param ignoreCase 是否忽略大小写
     * @return 如果找到关键词则返回 true，否则返回 false
     * @throws IOException 如果文件操作失败
     */
    public static boolean searchWordInPdf(String pdfFilePath, String searchTerm, boolean ignoreCase) throws IOException {
        String pdfText = PdfTextExtractor.extractTextFromPdf(pdfFilePath);
        if (pdfText == null || pdfText.isEmpty()) {
            return false;
        }

        if (ignoreCase) {
            return pdfText.toLowerCase().contains(searchTerm.toLowerCase());
        } else {
            return pdfText.contains(searchTerm);
        }
    }

    public static void main(String[] args) {
        Scanner scanner = new Scanner(System.in);
        String pdfPath = "C:\Users\user012\Desktop\Evalution.pdf"; // 替换为您的PDF文件路径

        System.out.println("请输入您要搜索的词语 (输入'Exit'退出):");

        while (scanner.hasNextLine()) {
            String searchTerm = scanner.nextLine();
            if (searchTerm.equalsIgnoreCase("Exit")) {
                break;
            }

            try {
                boolean found = searchWordInPdf(pdfPath, searchTerm, true); // 忽略大小写搜索
                if (found) {
                    System.out.println("是的，'" + searchTerm + "' 在文件中找到了。");
                    // 在这里可以添加文件操作逻辑
                } else {
                    System.out.println("没有，'" + searchTerm + "' 在文件中未找到。");
                }
            } catch (IOException e) {
                System.err.println("搜索PDF文件时发生错误：" + e.getMessage());
                e.printStackTrace();
            }

            System.out.println("
请输入您要搜索的词语 (输入'Exit'退出):");
        }
        scanner.close();
        System.out.println("程序结束。");
    }
}

登录后复制

5. 根据搜索结果执行文件操作

在确认PDF文件包含目标关键词后，我们可以执行相应的文件操作，例如将文件复制或移动到指定目录。Java 7 引入的 java.nio.file.Files 类提供了强大而灵活的文件系统操作功能，是进行文件复制和移动的首选。

Files.copy(source, target, options)： 复制文件。
Files.move(source, target, options)： 移动文件（可以理解为复制后删除源文件）。

这些方法可以指定 StandardCopyOption 来控制复制或移动的行为，例如 REPLACE_EXISTING（如果目标文件已存在则替换）或 ATOMIC_MOVE（原子性移动，保证要么成功要么失败，不会出现部分移动的情况）。

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.nio.file.StandardCopyOption;
import java.util.Scanner;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfSearchAndMove {

    /**
     * 从指定的PDF文件中提取所有文本内容。
     * @param pdfFilePath PDF文件的路径
     * @return 提取到的文本内容
     * @throws IOException 如果文件操作失败
     */
    public static String extractTextFromPdf(String pdfFilePath) throws IOException {
        File file = new File(pdfFilePath);
        try (PDDocument document = PDDocument.load(file)) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            return pdfStripper.getText(document);
        }
    }

    /**
     * 检查PDF文件是否包含指定的关键词。
     * @param pdfFilePath PDF文件的路径
     * @param searchTerm 要搜索的关键词
     * @param ignoreCase 是否忽略大小写
     * @return 如果找到关键词则返回 true，否则返回 false
     * @throws IOException 如果文件操作失败
     */
    public static boolean searchWordInPdf(String pdfFilePath, String searchTerm, boolean ignoreCase) throws IOException {
        String pdfText = extractTextFromPdf(pdfFilePath);
        if (pdfText == null || pdfText.isEmpty()) {
            return false;
        }

        if (ignoreCase) {
            return pdfText.toLowerCase().contains(searchTerm.toLowerCase());
        } else {
            return pdfText.contains(searchTerm);
        }
    }

    /**
     * 将文件移动到目标目录。
     * @param sourcePath 源文件路径
     * @param targetDirectory 目标目录路径
     * @param fileName 目标文件名
     * @throws IOException 如果文件移动失败
     */
    public static void moveFile(String sourcePath, String targetDirectory, String fileName) throws IOException {
        Path source = Paths.get(sourcePath);
        Path targetDir = Paths.get(targetDirectory);
        if (!Files.exists(targetDir)) {
            Files.createDirectories(targetDir); // 如果目标目录不存在则创建
        }
        Path target = targetDir.resolve(fileName); // 目标文件路径

        Files.move(source, target, StandardCopyOption.REPLACE_EXISTING); // 移动文件，如果目标存在则替换
        System.out.println("文件 '" + source.getFileName() + "' 已成功移动到 '" + targetDirectory + "'。");
    }

    public static void main(String[] args) {
        Scanner scanner = new Scanner(System.in);
        String sourcePdfPath = "C:\Users\user012\Desktop\Evalution.pdf"; // 源PDF文件路径
        String targetDirectory = "C:\Users\user012\Desktop\Search"; // 目标目录
        String targetFileName = "Evalution2.pdf"; // 移动后的文件名

        System.out.println("请输入您要搜索的词语 (输入'Exit'退出):");

        while (scanner.hasNextLine()) {
            String searchTerm = scanner.nextLine();
            if (searchTerm.equalsIgnoreCase("Exit")) {
                break;
            }

            try {
                boolean found = searchWordInPdf(sourcePdfPath, searchTerm, true); // 忽略大小写搜索
                if (found) {
                    System.out.println("是的，'" + searchTerm + "' 在文件中找到了。");
                    // 执行文件移动操作
                    moveFile(sourcePdfPath, targetDirectory, targetFileName);
                } else {
                    System.out.println("没有，'" + searchTerm + "' 在文件中未找到。");
                }
            } catch (IOException e) {
                System.err.println("处理PDF文件或执行文件操作时发生错误：" + e.getMessage());
                e.printStackTrace();
            }

            System.out.println("
请输入您要搜索的词语 (输入'Exit'退出):");
        }
        scanner.close();
        System.out.println("程序结束。");
    }
}

登录后复制

6. 注意事项与最佳实践

资源管理： 始终使用 try-with-resources 语句来加载 PDDocument 对象，确保在操作完成后能够自动关闭文档并释放系统资源，避免内存泄漏。
错误处理： 在文件操作和PDF处理过程中，IOException 是常见的异常。应捕获并妥善处理这些异常，例如打印错误信息、记录日志或向用户提供友好的提示。
文件路径： 确保提供的文件路径是正确的，并且程序有权限访问这些文件和目录。在Windows系统中，路径分隔符可以使用或 /。
目标目录创建： 在移动或复制文件之前，最好检查目标目录是否存在，如果不存在则创建它，以避免 NoSuchFileException。
性能考虑： 对于非常大的PDF文件，提取文本可能会消耗较多的内存和时间。如果只需要搜索PDF的特定页面或区域，可以优化 PDFTextStripper 的配置。
多词搜索与正则表达式： 如果需要搜索多个关键词或更复杂的模式，可以考虑使用Java的正则表达式（java.util.regex.Pattern 和 Matcher 类）来增强搜索功能。
并发处理： 如果需要同时处理大量PDF文件，可以考虑使用Java的并发API（如 ExecutorService）来并行处理，提高效率。

7. 总结

本教程详细阐述了如何使用Java和Apache PDFBox库来解决PDF文件中的文本搜索问题。通过引入专业的PDF处理库，我们能够准确地从PDF文件中提取文本内容，并在此基础上实现可靠的文本搜索逻辑。结合 java.nio.file.Files 进行文件操作，我们可以在搜索成功后，安全、高效地对PDF文件进行复制或移动。这种方法避免了直接将PDF作为普通文本文件处理所带来的问题，确保了文件内容的完整性和操作的正确性。掌握这些技术，将使您在Java项目中处理PDF文件时更加得心应手。

以上就是使用Java和Apache PDFBox实现PDF文本搜索与文件操作的详细内容，更多请关注php中文网其它相关文章！