讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

Python如何做自动化发票识别_OCR票据处理步骤【教学】

冷漠man

发布： 2025-12-20 22:39:07

原创

120人浏览过

Python自动化发票识别核心是OCR提取+结构化处理，关键在识别准确率与字段自动对齐：选高精度中文OCR工具（如百度/腾讯API或PaddleOCR），预处理图片（纠偏、降噪、增强），结合坐标、关键词和规则定位字段，正则校验数值，交叉验证金额与校验码，最终导出为Excel/CSV/数据库/PDF。

python如何做自动化发票识别_ocr票据处理步骤【教学】

Python做自动化发票识别，核心是用OCR技术提取票据上的文字信息，再通过规则或模型结构化处理。关键不在“能不能识别”，而在“识别得准不准、字段能不能自动对齐”。下面分几步说清楚实际落地要做的事儿。

选对OCR工具：优先考虑高精度+中文优化的API

别自己从零训练OCR模型——成本高、效果差。直接用成熟服务更稳：

百度OCR（文字识别）：对增值税专用发票有专门接口，能直接返回发票代码、号码、金额、开票日期等结构化字段
腾讯OCR：支持多类票据模板，返回JSON含位置坐标和置信度，适合后续做字段校验
PaddleOCR（开源）：本地部署、可微调，适合隐私敏感场景；但需自己写逻辑匹配发票字段位置

建议新手先用百度/腾讯的发票识别API跑通流程，再根据需求切到PaddleOCR。

预处理图片：提升OCR准确率的实操细节

拍歪、反光、模糊的发票图，OCR很容易漏字或错字。这几步预处理几乎必做：

立即学习“Python免费学习笔记（深入）”；

论小文

论小文

可靠的论文写作助手，包含11种学术写作类型，万字论文一键生成，可降重降AIGC，参考文献真实可标注，图表代码均可自定义添加。

论小文

431

论小文

用OpenCV或Pillow做灰度化 + 高斯模糊降噪
检测图像倾斜角，用仿射变换自动纠偏（尤其扫描件常有1–3°偏斜）
对背光或阴影区域做局部直方图均衡化（clahe），避免金额栏变黑块
如果是手机拍照，加一步边缘检测+四点透视裁剪，只保留发票本体区域

字段提取与结构化：不能只靠OCR返回的文字顺序

OCR返回的是按行/块排列的文本列表，但发票字段没有固定顺序（比如“销售方名称”可能在左上或右下）。得结合位置+关键词+业务规则来定位：

用返回的文本坐标（x,y,width,height）划分逻辑区域（如右上角20%区域找“发票代码”）
写关键词匹配规则：“￥”后面紧跟数字 → 提取为“价税合计”；“税率”后跟“%” → 提取前一个数字为税率值
对关键数值（金额、税额、数量）加正则校验：r'¥?\d{1,8}(\.\d{2})?'，过滤掉OCR误识的“O”当“0”、“l”当“1”
用发票代码12位+发票号码8位的固定格式做双重校验，排除识别错误项

结果校验与导出：闭环才算真正自动化

识别完不校验，等于白干。常见做法：

金额类字段做交叉验证：金额+税额 ≈ 价税合计（允许±0.01误差）
发票代码校验码用国税标准算法重算一次，失败则标为“待人工复核”
结果统一转成字典，存为Excel（用openpyxl）、CSV或直接写入数据库（SQLAlchemy）
把原始图、识别框图、结构化数据打包成PDF报告，方便财务回溯

基本上就这些。不复杂但容易忽略细节——比如没做纠偏导致金额识别全错，或者没校验发票代码导致后续入账失败。动手时，先拿5张样例发票跑通端到端流程，再批量扩展。

以上就是Python如何做自动化发票识别_OCR票据处理步骤【教学】的详细内容，更多请关注php中文网其它相关文章！

相关标签：

大家都在看：

Python如何实现自动邮件发送_办公自动化脚本示例【教程】 Python如何从Excel处理数据_表格数据读取与清洗方法【教程】 Python自动化生成日报周报月报系统构建步骤详解【指导】 Python实现机器学习中自动化办公的详细教程【教程】 Python自动化办公怎么做_Python自动化提升效率全流程【技巧】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Python如何实现多设备自动化控制_设备联动脚本开发【技巧】下一篇：Python虚拟环境怎么创建_venv使用完整流程【教程】

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Python列表与元组区别是什么_使用场景详细说明【教程】

2025-12-18 12:37:20
OPPO Find X9 Ultra 电池容量曝光传将突破 7000mAh 大关!

2025-12-18 12:38:02
4399小游戏大全游戏合集 4399全品类热门小游在线玩

2025-12-18 13:00:41
即梦ai网页版怎么使用_即梦ai网页版正版官方入口一键直达最全【免费使用】

2025-12-18 13:26:58
官网下载元宝网app_元宝ai官网APP下载正版入口官方2026【官方下载】

2025-12-18 13:40:11
即梦ai电脑版下载_即梦ai电脑版正版下载入口官方正规网址最新【免费下载】

2025-12-18 13:40:19
元宝网网址怎么找吗_元宝ai官网正规网址官方入口一键直达【正规网址】

2025-12-18 13:40:32
邮政编码查询自己的方法_邮政编码查询自己的最新快捷方式立即体验【邮政编码入口】

2025-12-18 13:47:20
邮政编码查询上海最新_邮政编码查询上海正版入口免费使用【邮政编码工具】

2025-12-18 13:48:25
图片在线转换工具_图片在线转换工具正版官方免费入口2026最新

2025-12-18 13:57:07

最新问题

Python自动化生成风险监控日报的脚本结构与逻辑方法【教学】 Python自动生成风险监控日报的核心是理清数据来源、计算逻辑、组织结构、读者对象和分发方式，并围绕业务闭环持续迭代。需先对齐模板明确字段，再分层接入稳定数据源，将指标计算封装为可测函数，最后用HTML+静态图+企微/钉钉机器人实现可靠渲染与分发。

2025-12-21 00:03:27

119

Python二进制文件怎么读写_bytes与bytearray讲解【教学】 Python读写二进制文件需用bytes（不可变）和bytearray（可变）类型，open()必须使用‘b’模式（如‘rb’、‘wb’），bytes支持切片索引但不可修改，bytearray支持原地编辑，适合高效修改字节数据。

2025-12-20 23:17:04

469

API接口开发项目特征工程的核心实现方案【教程】特征工程是API接口开发中确保模型稳定、可解释、可上线的关键环节，涵盖特征提取、编码、服务化与监控四大步骤，强调清晰性、可控性与可追溯性。

2025-12-20 23:16:02

289

Python变量命名规范如何做_可读性与风格讲解【指导】 Python变量命名应使用snake_case，真实反映数据含义，布尔变量加is_/has_/can_前缀，列表用复数名，常量全大写，避免关键字、内置名及单字符命名。

2025-12-20 23:13:16

763

Python使用统计检验处理业务数据异常的常见方法解析【指导】统计检验识别业务异常的核心是用证据替代直觉，需依数据类型与场景选方法、验前提、重业务解释：订单突变用t检验或Wilcoxon，AB测试用卡方或t检验，趋势分析用Mann-Kendall，多维离群用PCA+马氏距离；须检验正态性、方差齐性、期望频数等前提；p值需结合效应量与业务阈值综合判断。

2025-12-20 23:13:02

211

Python编写多任务数据处理管线的完整工程化方案【教程】 Python多任务数据处理管线的核心是构建可维护、可监控、可伸缩的执行流，关键在于任务解耦、状态管理、错误隔离和轻量调度；通过纯函数+元数据定义任务，DAG编排依赖，进程隔离执行，统一观测治理，并实现配置外化与版本可回滚。

2025-12-20 23:12:07

107

Python脚本如何实现批量视频处理与自动转码方案【技巧】 Python批量处理视频的核心是调用FFmpeg命令行工具，利用pathlib扫描文件、subprocess执行命令、字典管理参数，并通过并发执行与错误捕获提升效率与稳定性。

2025-12-20 23:12:07

828

Python无法验证ssl证书怎么解决 Python请求HTTPS报SSL验证失败应优先修复证书环境：更新系统CA证书、升级certifi库、确认证书路径正确；仅开发时可临时禁用验证，生产环境严禁；自签名证书需手动添加至信任链。

2025-12-20 23:08:02

197

Python自动化检测文件改动并生成日志记录的脚本方案【技巧】用watchdog库监听文件改动并用logging记录日志，精准捕获create/modify/delete/move事件，过滤非关键文件，按天轮转日志，异常自动恢复，支持命令行参数与优雅退出。

2025-12-20 23:06:08

424

Python配置文件怎么读取_ini与yaml解析方法【技巧】 Python读取.ini和.yaml配置文件应注重安全、灵活与可维护性：用configparser需禁用interpolation并显式编码；PyYAML必须用safe_load()；推荐封装统一配置类，支持自动识别格式、缓存、环境变量覆盖及必填校验。

2025-12-20 23:05:03

162

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Excel 教程

89423次学习
收藏
2小时学会Python玩转Excel，实现高效率办公自动化

12145次学习
收藏
成为PHP架构师-自制PHP框架

23185次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部