将PDF法律合同精准拆分为结构化HTML并提取章节内容

聖光之護

发布时间：2026-01-17 17:11:14

993人浏览过

来源于php中文网

原创

将PDF法律合同精准拆分为结构化HTML并提取章节内容

本文介绍如何使用pdftohtml 工具将带层级标题的pdf法律合同转换为语义化html，再借助beautiful soup解析标题与正文，批量生成独立文本文件，实现自动化章节提取。

在处理法律合同类PDF时，其核心价值往往在于清晰的章节结构（如“第一条合同主体”“第二条权利义务”）。但PDF本质是布局导向的格式，直接提取结构化文本困难重重。最高效路径是：先转换为语义化HTML → 再按DOM结构精准提取。

✅ 第一步：PDF转HTML（保留标题层级）

推荐使用开源命令行工具 pdftohtml（基于Poppler），它能将PDF中的逻辑结构（如字体加粗/字号变化）智能映射为

–

标签，并保留段落

和列表结构：

# macOS（通过Homebrew安装）
brew install pdftohtml

# Linux（Ubuntu/Debian）
sudo apt-get install pdftohtml

# 转换命令（生成带CSS样式的HTML，便于后续解析）
pdftohtml -c -s -i input_contract.pdf output_contract.html

-c：启用CSS样式输出（辅助识别标题层级）
-s：单文件模式（避免生成碎片化图片资源）
-i：忽略图像（法律合同通常无关键图，可提速）

⚠️ 注意：pdftohtml 对扫描版PDF无效（需先OCR）。若PDF是图片型，请先用 pdf2image + pytesseract 进行文字识别。

✅ 第二步：HTML解析与章节拆分（Python示例）

将生成的HTML加载进Beautiful Soup，利用标题标签（h1–h6）作为章节分隔符，逐段提取内容：

Text-To-Song

免费的实时语音转换器和调制器

下载

from bs4 import BeautifulSoup
import re

def split_contract_by_heading(html_path, output_dir="sections"):
    with open(html_path, "r", encoding="utf-8") as f:
        soup = BeautifulSoup(f, "html.parser")

    # 查找所有标题标签（按层级降序，确保h1优先于h2）
    headings = soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"], 
                             recursive=True)

    for i, h in enumerate(headings):
        # 获取当前标题文本（清理多余空格/换行）
        title = re.sub(r"\s+", " ", h.get_text(strip=True))
        if not title.strip():
            continue

        # 获取该标题后直到下一个标题前的所有兄弟节点（含段落、列表等）
        content_nodes = []
        sibling = h.next_sibling
        while sibling and not sibling.name in ["h1", "h2", "h3", "h4", "h5", "h6"]:
            if sibling.name and sibling.get_text(strip=True):  # 过滤空白标签
                content_nodes.append(sibling)
            sibling = sibling.next_sibling

        # 合并内容文本（保留段落换行）
        content = "\n".join([node.get_text(strip=False) for node in content_nodes])

        # 保存为独立文件（命名含序号和标题关键词）
        filename = f"{output_dir}/section_{i+1}_{re.sub(r'[\\/:*?"<>|]', '_', title[:40])}.txt"
        with open(filename, "w", encoding="utf-8") as f:
            f.write(f"{title}\n{'='*len(title)}\n\n{content}")
        print(f"✓ 已保存: {filename}")

# 执行
split_contract_by_heading("output_contract.html")

✅ 关键优化建议

标题识别增强：若PDF中标题未正确转为，可在pdftohtml后用正则预处理HTML，例如匹配“第[零一二三四五六七八九十]+条[　 ]+[^\n]+”并包裹为
。
内容去噪：法律合同常含页眉页脚，添加 soup.find("div", class_="footer").decompose() 提前移除。
编码兼容性：务必指定 encoding="utf-8"，避免中文乱码；若仍异常，尝试 encoding="gb18030"。

最终，你将获得一组命名清晰的 .txt 文件，每个文件严格对应一个合同条款——从PDF到结构化文本的转化，至此完成闭环。此方案兼顾准确性、可复现性与工程落地性，适用于批量处理数百份合同场景。

立即学习“前端免费学习笔记（深入）”；

Python表单自动填写_web驱动模拟操作技巧【指导】

Python自动化脚本项目中爬取网页数据的操作步骤【教程】

Python爬虫如何解析网页_BeautifulSoup实战讲解【指导】

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css linux python html node 编码 app ubuntu 工具 mac 中文乱码 pdf Python css html dom ocr 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何安全卸载 pip 包而不影响系统级 Python 工具？下一篇：Python gc.collect() 在什么情况下真的能立即回收内存

作者最新文章

如何安全移除 Elementor 生成的 HTML 标签，仅保留内部文本内容

2026-01-16 22:04

如何在 Cypress 中正确处理外部文件下载而不导致测试卡死

2026-01-16 22:19

标题：将评分范围按不等长区间划分并映射到消息数组的高效算法实现

2026-01-16 22:19

如何实现 HTML 下拉菜单中的嵌套子菜单（二级下拉）

2026-01-16 22:29

Cypress 中正确处理文件下载的完整实践指南

2026-01-16 22:32

如何在 Go 程序中正确使用 os/exec 调用 go build 命令

2026-01-16 22:35

如何在 Go Web 应用中正确托管 CSS 文件并解决 404 错误

2026-01-16 22:40

如何在 Go Web 应用中正确托管 CSS 静态资源避免 404 错误

2026-01-16 22:40

标题：装饰器模式的适用边界与类型兼容性约束

2026-01-16 22:59

如何使用 cURL 正确发送 JSON 数据到 PHP 接口

2026-01-16 23:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

758

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1264

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

548

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

708

2023.08.11