如何正确提取PDF中的图像并修复旋转、倒置与颜色异常问题

聖光之護

发布时间：2026-01-15 15:42:02

146人浏览过

来源于php中文网

原创

如何正确提取PDF中的图像并修复旋转、倒置与颜色异常问题

使用pymupdf（fitz）从pdf中提取图像时，常因忽略pdf坐标系差异、pixmap色彩空间处理及图像翻转逻辑，导致提取结果倒置、旋转或颜色失真；本文提供完整解决方案，涵盖pixmap创建、色彩空间转换、垂直翻转与rgb通道校正。

PDF采用与屏幕相反的坐标系：原点位于左下角，Y轴向上为正；而OpenCV/PIL等图像库默认原点在左上角，Y轴向下为正。这直接导致原始Pixmap数据按行存储时，首行为PDF页面底部像素——若直接转为NumPy数组并保存，图像将呈现上下颠倒（inverted）状态。此外，Pixmap的pix.samples是未经解码的原始字节流，其通道顺序、色彩空间（如CMYK、灰度、带Alpha的RGB）均可能与预期不符，引发颜色偏移（如发绿、泛红）或透明通道干扰。

以下为修正后的完整提取流程，已整合关键修复点：

import os
import numpy as np
import cv2
import fitz  # PyMuPDF

pdf_path = '/content/drive/MyDrive/Wettbewerb Aktuell/1803_AusgGesa-pages-2.pdf'
document = fitz.open(pdf_path)

start_page = 0
end_page = min(1, document.page_count - 1)
output_directory = '/content/drive/MyDrive/Wettbewerb Aktuell/images/'
os.makedirs(output_directory, exist_ok=True)

for page_number in range(start_page, end_page + 1):
    page_folder = os.path.join(output_directory, f"page_{page_number}/")
    os.makedirs(page_folder, exist_ok=True)

    page = document[page_number]
    images = page.get_images(full=True)

    for img_index, img in enumerate(images):
        xref = img[0]  # XREF of the image object

        # ✅ 步骤1：显式创建Pixmap（关键！避免extract_image的隐式解码缺陷）
        pix = fitz.Pixmap(document, xref)

        # ✅ 步骤2：统一转换为sRGB色彩空间（解决CMYK/灰度/多通道颜色异常）
        if pix.n > 4:  # 超过RGBA（4通道），强制转RGB
            pix = fitz.Pixmap(fitz.csRGB, pix)
        elif pix.n == 4:  # 带Alpha的RGBA → RGB（丢弃Alpha，避免混合失真）
            pix = fitz.Pixmap(fitz.csRGB, pix)
        elif pix.n == 1:  # 灰度图 → RGB（避免cv2.cvtColor报错）
            pix = fitz.Pixmap(fitz.csRGB, pix)

        # ✅ 步骤3：转换为NumPy数组并垂直翻转（修正PDF坐标系颠倒）
        img_np = np.frombuffer(pix.samples, dtype=np.uint8).reshape(pix.h, pix.w, pix.n)
        img_np_flipped = cv2.flip(img_np, 0)  # 沿X轴翻转 → 恢复正向显示

        # ✅ 步骤4：通道校正（Pixmap为BGR顺序？不！PyMuPDF samples是RGB顺序，但cv2.imwrite默认BGR）
        # 因此需转BGR保存，或用PIL保存（更稳妥）
        # 方案A（推荐）：用cv2.imwrite + BGR转换
        cv2.imwrite(os.path.join(page_folder, f"image_{img_index}.jpg"), 
                   cv2.cvtColor(img_np_flipped, cv2.COLOR_RGB2BGR))

        # 方案B（备选）：用PIL保存（自动处理RGB）
        # Image.fromarray(img_np_flipped).save(os.path.join(page_folder, f"image_{img_index}.png"))

        print(f"✅ Saved: {os.path.join(page_folder, f'image_{img_index}.jpg')}")
        pix = None  # ⚠️ 必须释放Pixmap内存，防止OOM

document.close()

关键注意事项：

Shakespeare

一款人工智能文案软件，能够创建几乎任何类型的文案。

下载

勿用 document.extract_image()：该方法返回的是PDF内嵌的原始编码数据（如JPEG字节流），未经过PyMuPDF的渲染层处理，无法自动适配坐标系和色彩空间，易出错。
必须创建 Pixmap：fitz.Pixmap(document, xref) 才能获得经PyMuPDF渲染引擎处理后的像素数据，支持色彩空间转换与尺寸信息访问。
cv2.flip(img_np, 0) 不可省略：这是修正倒置的核心操作，对应PDF坐标系与图像库坐标的本质差异。
色彩空间转换优先级高于翻转：先确保pix为标准RGB格式（pix.n == 3），再执行reshape与flip，否则reshape维度会错误。
及时释放Pixmap：循环内pix = None可触发__del__释放底层内存，处理多页PDF时至关重要。

若仍遇颜色异常（如偏青、发灰），可检查PDF源文件是否使用了非标准色彩配置文件（如Adobe RGB），此时建议在Pixmap创建后添加pix.set_dpi(300)提升采样精度，或导出为PNG（保留Alpha）再用专业工具校色。最终效果将与Illustrator手动导出一致——方向正确、色彩真实、细节完整。

如何定义一个函数，计算并返回从 0 到指定数值的所有阶乘结果

如何编写一个函数，计算并返回从0到指定数值的所有阶乘值列表

如何编写一个函数，计算并返回从 0 到指定数值的所有阶乘值列表

LeetCode 最快 TwoSum 解法的真相：预计算 + 作弊式输出

TensorFlow子类化模型中层的可重用性原理与实践

相关专题

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

公务员递补名单公布时间公务员递补要求

公务员递补名单公布时间不固定，通常在面试前，由招录单位（如国家知识产权局、海关等）发布，依据是原入围考生放弃资格，会按笔试成绩从高到低递补，递补考生需按公告要求限时确认并提交材料，及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料（确认书、资格复审材料）并准时参加面试。

2026.01.15

公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线，且考试类别相同。拟调剂职位设置了专业科目笔试条件的，专业科目笔试成绩还须同时达到合格分数线，且考试类别相同。 (三)未进入原报考职位面试人员名单。

2026.01.15

国考成绩查询入口国考分数公布时间2026

笔试成绩查询入口已开通，考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html，查询笔试成绩和合格分数线，点击“笔试成绩查询”按钮，凭借身份证及准考证进行查询。

2026.01.15