0

0

使用 PyMuPDF 按页码范围分割 PDF 并保留目录

霞舞

霞舞

发布时间:2025-08-31 16:13:01

|

598人浏览过

|

来源于php中文网

原创

 使用 PyMuPDF 按页码范围分割 PDF 并保留目录

本文档旨在提供一个使用 PyMuPDF 库分割 PDF 文件并保留对应目录的教程。我们将介绍如何提取原始 PDF 的目录,针对分割后的每个部分,调整目录结构以符合 PyMuPDF 的规范,并将调整后的目录添加到分割后的 PDF 文件中,确保分割后的文档仍然具有完整的导航功能。 ### 前提条件 确保已经安装了 PyMuPDF 库。如果没有安装,可以使用 pip 进行安装: ```bash pip install pymupdf

提取目录

首先,我们需要从原始 pdf 文件中提取目录。pymupdf 提供了 document.get_toc() 方法来获取目录信息。目录信息以嵌套列表的形式返回,每个子列表代表一个目录项,包含层级、标题和页码。

import fitz

def extract_toc(input_pdf_path):
    """
    从 PDF 文件中提取目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。

    Returns:
        list: 目录列表,每个元素是一个包含层级、标题和页码的列表。
    """
    pdf_document = fitz.open(input_pdf_path)
    toc = pdf_document.get_toc()
    pdf_document.close()
    return toc

分割 PDF 并调整目录

接下来,我们需要根据指定的页码范围分割 PDF 文件,并为每个分割后的文件调整目录。关键在于,分割后的每个 PDF 的目录必须符合 PyMuPDF 的目录规则:

  1. 第一个目录项的层级必须为 1。
  2. 后续目录项的层级只能与前一个目录项相同、高一级或低于前一个目录项。
def split_pdf_with_toc(input_pdf_path, output_folder, page_ranges):
    """
    分割 PDF 文件并保留目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。
        output_folder (str): 输出文件夹的路径。
        page_ranges (list): 页码范围列表,每个元素是一个包含起始页和结束页的元组。
    """
    pdf_document = fitz.open(input_pdf_path)
    original_toc = pdf_document.get_toc()

    for i, (start_page, end_page) in enumerate(page_ranges, start=1):
        # 创建新的 PDF 文件
        chapter_pdf = fitz.open()
        chapter_pdf.insert_pdf(pdf_document, from_page=start_page - 1, to_page=end_page - 1)

        # 提取对应页码范围的目录
        chapter_toc = []
        for level, title, page in original_toc:
            if start_page <= page <= end_page:
                chapter_toc.append([level, title, page - start_page + 1]) # 页码需要重新计算

        # 调整目录结构
        if chapter_toc:
            first_level = chapter_toc[0][0]
            if first_level != 1:
                for j in range(1, first_level):
                    chapter_toc.insert(0, [j, "dummy", 1])

        # 设置目录
        chapter_pdf.set_toc(chapter_toc)

        # 保存新的 PDF 文件
        output_pdf_path = f"{output_folder}/Chapter_{i}.pdf"
        chapter_pdf.save(output_pdf_path)
        chapter_pdf.close()

    pdf_document.close()

示例

以下是一个使用示例:

# 示例用法
input_pdf_path = "input.pdf"  # 替换为你的输入 PDF 文件路径
output_folder = "output"  # 替换为你的输出文件夹路径
page_ranges = [(1, 10), (11, 20), (21, 30)]  # 定义页码范围

split_pdf_with_toc(input_pdf_path, output_folder, page_ranges)

在这个例子中,我们将 input.pdf 文件分割成三个部分,分别包含第 1-10 页、第 11-20 页和第 21-30 页。分割后的文件将保存在 output 文件夹中,文件名分别为 Chapter_1.pdf、Chapter_2.pdf 和 Chapter_3.pdf。每个分割后的 PDF 文件都将包含与其内容对应的目录。

BlessAI
BlessAI

Bless AI 提供五个独特的功能:每日问候、庆祝问候、祝福、祷告和名言的文本生成和图片生成。

下载

注意事项

  • 页码计算: 在调整目录时,需要重新计算分割后 PDF 文件的页码。
  • 目录规则: 确保调整后的目录符合 PyMuPDF 的规则,否则可能导致目录显示不正确。
  • 错误处理: 在实际应用中,应该添加适当的错误处理机制,例如处理文件不存在、页码范围无效等情况。
  • 目录提取的准确性: 某些PDF可能存在目录结构复杂或不规范的情况,提取的目录可能不完全准确,需要根据实际情况进行调整。

总结

通过使用 PyMuPDF 库,我们可以方便地分割 PDF 文件并保留目录。关键在于理解 PyMuPDF 的目录规则,并根据这些规则调整分割后 PDF 文件的目录结构。希望本教程能够帮助你更好地处理 PDF 文件。

					

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

338

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

405

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

751

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

339

2025.07.23

点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

180

2023.11.24

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

34

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

14

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

33

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

18

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号