微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

python如何提取PDF文本

(*-*)浩

发布： 2019-06-29 11:42:21

原创

6561人浏览过

本文为你展示，如何用python把许多pdf文件的文本内容批量提取出来.

python如何提取PDF文本

首先，我们读入一些模块，以进行文件操作。（推荐学习：Python视频教程）

import glob
import os

登录后复制

演示目录下，有两个文件夹，分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

立即学习“Python免费学习笔记（深入）”；

pdf_path = "pdf/"

登录后复制

我们希望获得所有 pdf 文件的路径。用glob，一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

登录后复制

看看我们获得的 pdf 文件路径是否正确。

提客AI提词器

提客AI提词器

「直播、录课」智能AI提词，搭配抖音直播伴侣、腾讯会议、钉钉、飞书、录课等软件等任意软件。

提客AI提词器

64

提客AI提词器

pdfs

登录后复制

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

登录后复制

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

登录后复制

用这个函数，我们尝试从 pdf 文件列表中的第一篇里，抽取内容，并且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])

登录后复制

显然，内容抽取并不完美，页眉页脚等信息都混了进来。不过，对于我们的许多文本分析用途来说，这无关紧要。

更多Python相关技术文章，请访问Python教程栏目进行学习！

以上就是python如何提取PDF文本的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python

大家都在看：

Python多线程如何提升计算效率 Python多线程并行计算实战 Python爬虫怎样实现异常处理_Python爬虫运行中异常捕获与错误处理机制 Python爬虫怎样使用requests库_Python爬虫requests库的安装与基本用法 Python项目测试依赖声明：pyproject.toml与现代实践 Python中高效合并列表元素：深入理解zip()函数与列表推导式

WPS零基础入门到精通全套教程！

WPS零基础入门到精通全套教程！

全网最新最细最实用WPS零基础入门到精通全套教程！带你真正掌握WPS办公！内含Excel基础操作、函数设计、数据透视表等

来源：php中文网

上一篇：python分数怎么表示下一篇：python如何写入csv

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

win10重置卡在键盘布局解决办法

2020-01-15 09:09:20
win10许可证过期怎么激活

2020-01-15 09:22:01
win10要装杀毒软件么

2020-01-15 09:28:34
win10蓝牙耳机麦克风不能用

2020-01-15 09:36:25
win10游戏闪退修复办法

2020-01-15 09:58:52
win10更新要多久

2020-09-14 10:58:08
win10更新1909要多久

2020-01-15 10:16:56
win10怎么连接外国网络

2020-01-15 10:34:39
win10安装.Net Framework 3.5 sp1

2020-01-15 10:58:09
win10 1809稳定吗

2020-01-15 11:18:13

最新问题

python os怎样处理系统文件 os模块用于Python中系统文件与目录操作，支持跨平台路径处理、目录创建删除、文件重命名及属性管理，核心功能包括os.path路径操作、os.mkdir/makedirs创建目录、os.remove删除文件、os.rename重命名，并可结合open()读写文件，推荐配合shutil模块进行高级操作。

2025-11-14 18:31:02

314

pythonfor循环怎样对特定函数返回值求和_pythonfor循环对函数返回的数字进行求和的实例答案是可以通过for循环累加函数返回值实现求和。首先定义函数并初始化累加变量，然后在循环中调用函数并将返回值累加到变量中，最后输出结果；对于带参数的函数，可在遍历参数列表时逐次传参调用并累加，推荐使用sum配合生成器表达式以提升代码简洁性。

2025-11-14 18:13:02

337

python中Queue如何通信 Queue是Python中线程和进程间通信的关键工具，queue.Queue用于线程间安全数据传递，multiprocessing.Queue支持跨进程通信，具备阻塞、序列化传输和任务同步特性，结合JoinableQueue等类型可有效管理并发任务流程。

2025-11-14 18:10:03

378

python and用法 and运算符在Python中用于连接条件，遵循短路求值规则：若左操作数为假则返回左操作数，否则返回右操作数；常用于条件判断、安全访问及与or、not组合使用。

2025-11-14 18:09:06

162

Python环境恢复出厂设置怎么做_重置Python环境与清理配置的实用方法重置Python环境可通过卸载重装Python、清理pip包、删除虚拟环境与缓存、重置IDE配置实现。首先卸载Python并删除残留文件，重新安装官方版本；或使用pipuninstall-rrequirements.txt清除第三方包；删除venv等虚拟环境文件夹并执行pipcachepurge清理缓存；最后在VSCode或PyCharm中更新解释器路径。建议日常使用虚拟环境隔离项目依赖，避免污染全局环境。

2025-11-14 18:07:02

377

Python3返回值怎么处理_Python3函数返回值获取与使用方法答案：编写Python函数时需正确处理返回值。一、通过变量接收单个返回值，确保函数包含return语句；二、返回多个值时实际为元组，可用解包或索引获取；三、使用type()或isinstance()检查类型，避免运行时错误；四、嵌套函数中需显式return内层函数结果，防止返回None；五、为防意外None，可在调用时设置默认值，如用or或条件表达式。

2025-11-14 17:03:33

894

Python字符串怎么处理_Python字符串处理方法与实用技巧 Python字符串处理需掌握常用方法与技巧：1.strip、split、join、replace、upper/lower、find/index实现基础操作；2.优先使用f-string格式化，兼顾可读性与性能；3.复杂模式用re模块的search、findall、sub进行匹配替换；4.注意多行字符串写法、join拼接效率及startswith/endswith判断，确保代码清晰高效。

2025-11-14 17:01:35

758

python time模块处理系统时间的函数 Python的time模块基于Unix时间戳提供时间处理功能，包括获取时间戳、格式化输出、解析字符串及程序休眠等操作。

2025-11-14 16:55:02

281

Python多线程如何提升计算效率 Python多线程并行计算实战 Python多线程适用于IO密集型任务如网络请求、文件读写和数据库查询，因GIL限制不适用于CPU密集型任务；1.多线程可提升IO等待期间的资源利用率；2.实战中使用threading模块或concurrent.futures可显著缩短批量请求耗时；3.CPU密集型任务应改用multiprocessing模块以绕过GIL实现并行计算。

2025-11-14 15:58:02

245

Python爬虫怎样实现异常处理_Python爬虫运行中异常捕获与错误处理机制答案：编写健壮的Python爬虫需结合异常处理、重试机制与日志记录。首先捕获requests和解析库常见异常，如RequestException、Timeout、ConnectionError、HTTPError及AttributeError；通过try-except结构包裹请求与解析逻辑，并设置重试策略应对临时故障；推荐使用tenacity库实现带间隔的自动重试；生产环境中应采用logging模块记录错误详情，便于排查；同时通过设置请求头、控制频率、使用with语句和字段校验等预防措施提升稳定

2025-11-14 15:34:59

366

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Python 3 教程

267398次学习
收藏
Python 教程

55553次学习
收藏
中谷教育Python视频教程

78790次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部