PDF转TXT有四种方法:一、Adobe Acrobat Pro DC支持OCR与导出,保持段落结构;二、Python pdfplumber库高精度提取,兼容复杂排版;三、Smallpdf等在线工具快捷但需注意隐私;四、PowerShell调用pdftotext命令行工具,适合批量处理。

如果您需要从PDF文件中提取纯文本内容并保存为TXT格式,则可能是由于PDF中的文字内容需要进一步编辑、分析或导入到其他系统中。以下是实现PDF转TXT的多种方法:
一、使用Adobe Acrobat Pro DC
Adobe Acrobat Pro DC内置OCR识别与文本导出功能,适用于扫描版或可选中文本的PDF,能保持原始段落结构并准确提取字符。
1、打开Adobe Acrobat Pro DC,点击“文件”→“打开”,选择目标PDF文件。
2、在右侧工具栏中点击“导出PDF”,若未显示则点击右上角“更多工具”→添加“导出PDF”工具。
3、在导出选项中选择“文本(.txt)”作为目标格式。
4、点击“导出”,在弹出窗口中指定保存路径与文件名,点击“保存”完成转换。
5、如PDF为扫描图像型,需先执行OCR:点击“工具”→“增强扫描”→“识别文本”→选择语言(如中文),再执行导出步骤。
二、使用Python脚本(pdfplumber库)
pdfplumber是一个高精度的开源PDF解析库,擅长处理含表格、多栏、混合排版的PDF,可逐页提取原始文本流,避免乱码与格式干扰。
1、在命令行中执行 pip install pdfplumber 安装依赖库。
2、新建一个.py文件,输入以下代码:
import pdfplumber
with pdfplumber.open("input.pdf") as pdf:
full_text = ""
for page in pdf.pages:
text = page.extract_text()
if text:
full_text += text + "\n"
with open("output.txt", "w", encoding="utf-8") as f:
f.write(full_text)
3、将待处理PDF重命名为input.pdf,并与该脚本置于同一文件夹。
4、运行脚本,生成output.txt文件,编码为UTF-8,兼容中文及特殊符号。
三、使用在线工具(Smallpdf或iLovePDF)
无需安装软件,适合临时快速处理单个非敏感PDF,支持批量上传与基础OCR识别,但对加密PDF或含权限限制的文档可能失败。
1、访问 https://smallpdf.com/cn/pdf-to-text 或 https://www.ilovepdf.com/zh-cn/pdf_to_text。
2、点击“选择文件”按钮,上传PDF文件(最大限制通常为150MB)。
3、等待网站自动检测文本层;若提示“此PDF为扫描件”,则勾选“启用OCR”并选择语言为“简体中文”。
4、点击“转换为TXT”按钮,处理完成后点击“下载TXT”保存至本地。
5、注意:上传前请确认文件不含机密信息,因文件将在第三方服务器临时处理。
四、使用Windows PowerShell调用pdftotext(Poppler工具)
pdftotext是跨平台命令行工具,源自Poppler套件,转换速度快、内存占用低,适用于自动化批量处理场景,且默认保留换行与空格逻辑。
1、前往 https://github.com/oschwartz10612/poppler-windows/releases/ 下载最新poppler-xx.x.x_x64.7z压缩包。
2、解压后将bin目录路径(如C:\poppler\Library\bin)添加至系统环境变量PATH中。
3、打开PowerShell,输入命令:pdftotext -layout input.pdf output.txt。
4、若PDF含图片文字,追加OCR参数需配合Tesseract:先安装tesseract,再运行 pdftotext -raw -enc UTF-8 input.pdf output.txt。
5、检查output.txt是否生成,文本按视觉阅读顺序排列,段落缩进与换行基本保留。










