讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

Python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】

舞夢輝影

发布： 2025-12-13 21:27:25

原创

476人浏览过

Python合同敏感信息识别与脱敏可基于正则+关键词匹配实现：精准定位身份证号、手机号、银行卡号等，按规则掩码处理（如身份证前6后4保留），结合jieba分词匹配姓名公司名，支持txt/docx/pdf多格式读取与结构化输出。

python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】

用Python自动识别合同文本中的敏感信息并生成脱敏文件，核心在于：精准定位敏感词（如身份证号、手机号、银行账号、公司名称、签约方姓名等），按规则替换或掩码处理，并保留原文结构输出新文件。不依赖复杂模型，正则+关键词匹配+基础NLP即可落地。

一、明确要识别的敏感信息类型和规则

先梳理合同中常见的敏感字段，每类定义清晰的识别方式和脱敏格式：

身份证号：15位或18位数字（含X/x），用正则 r'\b\d{15}|\d{17}[\dXx]\b' 匹配，脱敏为前6位+“****”+后4位
手机号：11位连续数字，开头为1，用 r'1[3-9]\d{9}' 匹配，脱敏为前3位+“****”+后4位
银行卡号：16–19位连续数字，常带空格或短横线，先清洗再匹配 r'\b\d{16,19}\b'，脱敏为前6位+“****”+后4位
姓名/公司名：需自建关键词表（如“甲方：XXX有限公司”），用字符串包含或jieba分词+词典匹配，脱敏为“甲方：某公司”或“张三”→“某先生”
金额、日期、地址：按需控制，例如金额大于100万标为“【大额金额】”，日期统一转为“【签约日期】”

二、读取与预处理合同文本

支持txt、docx（需python-docx）、pdf（需PyPDF2或pdfplumber）三种常见格式。推荐从txt起步，稳定易调试：

txt文件直接 open(..., encoding='utf-8') 读取
docx用 Document('xxx.docx').paragraphs 提取段落，拼接为字符串
pdf优先用 pdfplumber（对表格/换行更友好），避免PyPDF2乱码；提取后做简单清洗：去多余空格、合并软回车
统一转为UTF-8字符串，记录原始段落位置（便于后续还原格式）

三、逐类匹配 + 安全替换（避免误伤）

关键原则：从长到短匹配、避开URL/代码块、保留原始标点。推荐用 re.sub() 配合回调函数，按优先级顺序处理：

DeepBrain

DeepBrain

AI视频生成工具，ChatGPT +生成式视频AI =你可以制作伟大的视频!

DeepBrain

146

DeepBrain

立即学习“Python免费学习笔记（深入）”；

先处理身份证、银行卡等强规则字段（长度固定、格式唯一）
再处理手机号、邮箱（注意邮箱@前后不能断开）
最后处理人名/公司名：用 for name in sensitive_names: 循环替换，加边界符 r'(? 防止“北京”匹配到“北京市”里重复脱敏
每次替换记录日志：原内容 → 脱敏后 → 所在行号，方便审计

四、生成脱敏文件并验证效果

输出保持原格式可读性，不是简单覆盖，而是生成新文件（如contract_v1_anonymized.txt）：

纯文本：直接写入，每行末尾保留换行符
docx：新建文档，遍历原文段落，对每段调用脱敏函数后写入新段落
pdf不直接改源文件（技术限制），输出脱敏文本+标注报告（含所有替换项列表）
必做校验：打开脱敏后文件，搜索“身份证”“账号”等关键词，确认无残留；抽样检查是否出现“138****1234”被错切成“138****12”+“34”

基本上就这些。脚本不复杂但容易忽略上下文保护和格式还原——比如合同里的“附件一：XXX营业执照复印件（加盖公章）”，其中“XXX”要脱敏，“加盖公章”不能动。把规则列清楚、测试用例多跑几份真实合同，就能稳稳上线。

以上就是Python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python 回调函数 pdf 邮箱 Python for 回调函数字符串循环 nlp

大家都在看：

如何使用Python调用第三方API_接口对接完整示例【指导】 Python使用Airflow实现自动化任务调度的构建方式【教程】 Python实现自动生成文章摘要模型的训练与调优过程【指导】深入理解Python中int(input())的执行顺序与原理 Python构建多领域文本混合分类模型的训练结构解析【教程】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：哪些网站用python开发下一篇：rpy2 中 Python 对象到 R 矩阵的高效与安全转换指南

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

越来越像CapCut？Google Photos大改版！AI製作短影片更快

2025-12-13 19:15:01
Python使用Airflow实现自动化任务调度的构建方式【教程】

2025-12-13 19:18:08
如何使用Python调用第三方API_接口对接完整示例【指导】

2025-12-13 19:27:34
抖音商城登录入口在哪抖音商城登录通道与账号访问方法

2025-12-13 20:02:02
Windows错误代码0x0000002E是什么错误_磁盘校验失败解决方法

2025-12-13 20:03:07
情人节送礼救星！乐高Ideas系列揭露新品「爱情鸟」套组、爱心剪影登场

2025-12-13 20:36:25
南韩拟砸逾30亿美元打造本土晶圆厂提升逻辑晶片与AI时代竞争力

2025-12-13 21:09:07
谷歌Android 16 QPR2推出通知整理器用AI自动归类通知

2025-12-13 21:15:27
Linux Git常见命令实战_Linux提交拉取合并代码示例

2025-12-13 21:22:02
Python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】

2025-12-13 21:27:25

最新问题

Python中高效合并多个字典相同键的列表值本文旨在介绍如何高效且Pythonic地合并多个字典，特别是当这些字典拥有相同的键，且键对应的值是需要合并的列表时。我们将详细探讨使用collections.defaultdict结合list.extend()方法，提供一种简洁、强大的解决方案，以避免常见的合并误区，并确保正确地聚合所有相关列表数据。

2025-12-13 21:46:19

218

Pandas数据合并：处理多时间频率DataFrame的完整指南本教程详细阐述了如何使用Pandas高效合并具有不同时间步长的多个DataFrame。通过利用pd.merge函数的how=‘outer’参数，我们能够将所有时间点的数据整合到一个统一的数据帧中，并自动处理缺失值，确保所有时间序列信息的完整性。文章提供了具体的代码示例和专业指导，帮助读者掌握此类复杂数据合并技巧。

2025-12-13 21:41:02

160

rpy2 中 Python 对象到 R 矩阵的高效与安全转换指南本教程旨在解决rpy2中将Python对象（特别是NumPy数组）转换为R矩阵时遇到的常见问题。文章深入探讨了numpy2ri的作用、全局激活/停用转换器的弊端，并重点推荐使用rpy2.robjects.conversion.localconverter进行局部转换，以提高代码的健壮性和可维护性。通过示例代码，演示了如何确保Python对象类型与转换规则兼容，并实现无缝的数据桥接。

2025-12-13 21:33:21

717

Python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】 Python合同敏感信息识别与脱敏可基于正则+关键词匹配实现：精准定位身份证号、手机号、银行卡号等，按规则掩码处理（如身份证前6后4保留），结合jieba分词匹配姓名公司名，支持txt/docx/pdf多格式读取与结构化输出。

2025-12-13 21:27:25

476

哪些网站用python开发 Python在现代Web生态中承担不可替代的中枢角色，被Instagram、Pinterest、Reddit、Disqus、Mozilla支持站、Spotify、Dropbox等广泛用于后端核心、推荐系统、数据管道、运维工具及API服务。

2025-12-13 21:25:02

1004

在Hostinger主机上配置自定义默认首页文件：解决index文件要求在Hostinger等共享主机环境中，网站通常需要一个名为index的默认首页文件。本文将详细介绍如何利用.htaccess文件来指定自定义的默认首页，例如将home.html设为网站的入口页面。同时，文章还将强调在网站内部链接中采用最佳实践的重要性，避免在URL中直接暴露首页文件名，以提升网站的可维护性和用户体验。

2025-12-13 21:23:16

380

PonyORM集成Oracle CHAR类型：理解与应对填充行为本文深入探讨了PonyORM在使用Oracle数据库时，对CHAR类型字段处理中遇到的空格填充问题。我们将解析OracleCHAR与VARCHAR2类型在存储行为上的差异，阐明填充如何影响查询结果，并提供两种主要解决方案：一是通过SQL的TRIM函数进行精确匹配，二是推荐在设计数据库时优先选用VARCHAR2类型以避免此类问题，从而提升数据操作的准确性和灵活性。

2025-12-13 21:22:04

177

解决 Flask Web 应用中因模板未找到导致的 500 HTTP 错误 FlaskWeb应用出现500HTTP错误时，常见原因之一是Jinja2模板引擎无法找到指定的HTML模板文件，表现为TemplateNotFound异常。本文将详细讲解Flask模板查找机制，并提供确保模板文件正确放置在templates目录下的解决方案，以快速修复此类问题，确保应用正常运行，同时涵盖相关注意事项和最佳实践。

2025-12-13 21:09:52

399

Python自动化实现服务器状态巡检与告警系统的设计思路【指导】 Python服务器巡检核心是“可执行、可感知、可追溯”：用subprocess/paramiko采集CPU、内存、进程、端口等指标，分级告警并静默去重，JSON+CSV+SQLite留存日志，测试48小时后上线。

2025-12-13 21:00:07

153

Python中类变量与状态模式：避免循环引用与优化设计本教程深入探讨了在Python中定义类变量为子类实例时遇到的循环引用问题及其解决方案。文章分析了原始设计中因命名解析顺序导致的困境，并提出通过将单一状态表示为基类的常量实例，并将其定义在类外部来解决。同时，建议将状态获取逻辑重构到上下文类中，以实现更清晰的职责划分和更健壮的代码结构，从而优化状态模式的实现。

2025-12-13 20:54:20

723

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

4840次学习
收藏
Django 教程

21025次学习
收藏
SciPy 教程

7896次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部