PDF转TXT有五种方法:一、Adobe Acrobat Pro支持OCR和结构化导出;二、Python脚本批量处理文字型PDF;三、在线OCR工具便捷但存隐私风险;四、Windows PowerShell配合Edge手动复制;五、Linux用pdftotext命令行高效转换。

如果您需要从PDF文档中提取纯文本内容,但发现直接复制粘贴存在格式错乱、乱码或无法选中文字等问题,则可能是由于PDF文件为扫描图像型或加密限制所致。以下是将PDF转换成TXT文件的多种操作方法:
一、使用Adobe Acrobat Pro进行导出
Adobe Acrobat Pro支持对可编辑和扫描型PDF执行OCR识别并导出为纯文本。该方法适用于Windows与macOS系统,能较好保留原始段落结构。
1、启动Adobe Acrobat Pro,点击“文件”→“打开”,选择目标PDF文件。
2、若PDF为扫描件,点击右侧“扫描和OCR”面板中的“识别文本”,选择语言后点击“识别文本”。
3、确认识别完成后,点击“文件”→“导出到”→“文本(.txt)”,指定保存路径并点击“保存”。
4、在弹出的导出选项窗口中,勾选“保留段落结构”,取消勾选“保留字体和样式”,以确保输出为标准TXT格式。
二、使用Python脚本批量转换(需安装pdfplumber和PyPDF2)
该方法适合处理大量PDF文件,且对文字型PDF兼容性高;不依赖图形界面,可在命令行环境运行。
1、在终端或命令提示符中执行:pip install pdfplumber 安装核心解析库。
2、新建一个名为pdf_to_txt.py的文件,写入以下代码:
import pdfplumber
def convert_pdf_to_txt(pdf_path, txt_path):
with pdfplumber.open(pdf_path) as pdf:
text = ""
for page in pdf.pages:
text += page.extract_text() or ""
with open(txt_path, "w", encoding="utf-8") as f:
f.write(text)
3、在同级目录下放入待转换的example.pdf,然后在终端中运行:python pdf_to_txt.py(需补充调用逻辑或使用命令行参数)。
4、生成的TXT文件将自动保存至相同目录,编码为UTF-8,可避免中文乱码问题。
三、使用在线OCR转换工具(如Smallpdf或iLovePDF)
适用于临时、小体积PDF(通常限制单文件≤100MB),无需安装软件,但需注意隐私风险——上传文件可能被服务器临时存储。
1、访问https://smallpdf.com/pdf-to-text 或 https://www.ilovepdf.com/pdf_to_text 网站。
2、点击“选择文件”按钮,上传目标PDF。若为扫描件,确保网站界面中已启用OCR选项(部分工具默认开启)。
3、等待进度条完成,页面显示“转换完成”后,点击“下载TXT”按钮。
4、下载后的文件名默认含时间戳,建议立即重命名为有意义的名称,并检查首段是否存在页眉页脚残留或分栏错位现象。
四、使用Windows PowerShell调用内置PDF引擎(仅限文字型PDF)
Windows 10/11内置的Microsoft Edge浏览器引擎可通过PowerShell调用,实现无第三方工具的轻量转换,但不支持扫描件或加密PDF。
1、右键点击PDF文件,选择“打开方式”→“Microsoft Edge”。确认内容可正常选中文字。
2、打开PowerShell,输入:Get-Content "C:\path\to\file.pdf" -Encoding Byte | Set-Content "C:\path\to\output.txt" -Encoding UTF8(此方式无效,需改用Edge自动化)。
3、实际有效方式:在PowerShell中执行:Start-Process "msedge.exe" --args "--headless --disable-gpu --dump-dom 'file:///C:/path/to/file.pdf'" | Out-File temp.html(需配合后续HTML转TXT脚本)。
4、更可靠做法是:在Edge中按Ctrl+A全选→Ctrl+C复制→新建记事本→Ctrl+V粘贴→另存为TXT,编码选择UTF-8。
五、使用Linux命令行工具pdftotext(来自poppler-utils)
pdftotext是开源命令行工具,精度高、速度快,支持OCR需额外集成Tesseract,原生命令仅处理文字型PDF。
1、在Ubuntu/Debian系统中执行:sudo apt update && sudo apt install poppler-utils。
2、确认PDF路径为/home/user/doc.pdf,执行命令:pdftotext -layout /home/user/doc.pdf /home/user/doc.txt。
3、-layout参数用于保持原文本横向对齐关系,避免段落挤压;若需去除换行符合并为连续段落,改用-raw参数。
4、转换完成后,使用file -i /home/user/doc.txt验证输出文件编码是否为utf-8,非则用iconv转换:iconv -f gbk -t utf-8 doc.txt > doc_utf8.txt。










