如何用Python操作Word文档？python-docx教程

爱谁谁

发布时间：2025-07-02 18:15:02

504人浏览过

来源于php中文网

原创

要操作word文档，首选python-docx库。其核心步骤为：1. 安装库：pip install python-docx；2. 创建document对象并添加内容，如标题、段落（支持加粗、斜体）、列表、表格和图片；3. 保存文档。该库能处理的元素包括文档、段落、文本运行、表格、标题、样式、图片和节等。常见挑战包括保留复杂格式和处理大型文档，建议采用“打开-修改-保存”方式及批量操作优化性能。自动化批量处理则依赖模板+数据+循环逻辑，通过替换占位符生成定制化文档，适用于合同、报告等场景。

如何用Python操作Word文档？python-docx教程

用Python操作Word文档，python-docx库无疑是首选。它提供了一套直观的API，让你能够创建、修改和读取.docx格式的Word文件，无论是插入文本、图片、表格，还是调整样式，都能轻松实现。

解决方案

要用Python操作Word文档，核心就是安装并使用python-docx库。它将Word文档抽象成一系列对象，比如Document、Paragraph、Run、Table等，通过操作这些对象就能实现对文档内容的控制。

首先，你得确保安装了它： pip install python-docx

接着，我们来看一些基本操作。比如，创建一个全新的Word文档，然后往里加点文字：

立即学习“Python免费学习笔记（深入）”；

from docx import Document
from docx.shared import Inches # 导入用于设置图片大小的单位

# 创建一个新文档
document = Document()

# 添加一个标题
document.add_heading('我的Python文档操作初体验', level=1)

# 添加一个段落
p = document.add_paragraph('这是用Python生成的第一个段落。')
p.add_run(' 这句话是加粗的。').bold = True
p.add_run(' 而这句是斜体的。').italic = True

# 再加一个段落，直接添加文本
document.add_paragraph('再来一段，这次直接写。')

# 添加一个列表
document.add_paragraph('列表项1', style='List Bullet')
document.add_paragraph('列表项2', style='List Bullet')

# 添加一个图片 (确保你有'example.png'在同目录下)
# from docx.shared import Inches
# try:
#     document.add_picture('example.png', width=Inches(1.25))
# except FileNotFoundError:
#     print("警告：未找到 'example.png'，跳过图片插入。")

# 添加一个表格
table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = '姓名'
hdr_cells[1].text = '年龄'
hdr_cells[2].text = '城市'

# 添加数据行
row_cells = table.add_row().cells
row_cells[0].text = '张三'
row_cells[1].text = '30'
row_cells[2].text = '北京'

row_cells = table.add_row().cells
row_cells[0].text = '李四'
row_cells[1].text = '25'
row_cells[2].text = '上海'

# 保存文档
document.save('我的_Python_文档.docx')
print("文档已保存为 '我的_Python_文档.docx'")

# 读取现有文档并提取内容
# document = Document('我的_Python_文档.docx')
# print("\n读取文档内容：")
# for paragraph in document.paragraphs:
#     print(paragraph.text)

这段代码展示了如何从零开始构建一个文档，包括标题、段落（带格式）、列表和表格。操作现有文档也类似，只是先用Document('path/to/your/doc.docx')加载进来。我个人觉得，它把Word的复杂性封装得挺好，用起来很顺手，虽然有些高级的布局功能它可能力不从心，但日常的文本和结构化内容处理绝对够用。

python-docx能处理哪些Word文档元素？

python-docx库的设计哲学是尽可能地映射Word文档的内部结构，所以它能处理的元素远不止简单的文本。深入来看，它主要围绕以下几个核心概念展开：

Document (文档对象): 这是整个Word文档的最高层级，所有内容都包含在其中。你可以通过它来添加段落、表格、图片等。
Paragraph (段落): Word文档的基本文本块。每个段落可以有自己的样式，比如对齐方式、缩进等。python-docx允许你添加新的段落，或者遍历现有文档中的段落。
Run (文本运行): 这是一个比较关键的概念。一个段落内部的文本，如果格式（如字体、大小、颜色、粗体、斜体等）发生变化，就会被划分为不同的“文本运行”。比如，“Hello World”中，“Hello”是一个Run，“World”是另一个Run。通过操作Run对象，你可以精细控制文本的格式。
Table (表格): 可以创建新的表格，或者访问现有表格的行和单元格。对表格的每个单元格，你又可以像操作一个小型文档一样，往里面添加段落、图片等。
Heading (标题): Word文档中的标题（H1, H2等）实际上是应用了特定样式（如'Heading 1'）的段落。add_heading()方法就是快捷方式。
Style (样式): python-docx支持应用和管理Word文档中的样式，包括段落样式（如'Normal', 'Heading 1', 'List Bullet'）和字符样式。这对于保持文档格式的一致性至关重要。
Picture (图片): 可以将图片插入到文档中，并控制其大小。
Section (节): 文档可以分为不同的节，每节可以有独立的页眉、页脚、页边距和页码设置。python-docx也提供了对节的访问和修改能力，虽然这部分操作可能不如文本那么直观。

举个例子，如果你想修改一个段落中特定文本的颜色，你可能需要先找到那个段落，然后遍历它的runs，找到对应的文本run，再修改它的字体颜色属性。这种层级结构虽然初看起来有点复杂，但一旦理解了，你会发现它非常灵活，几乎能满足你对Word文档内容的所有编程控制需求。

处理Word文档时常见的挑战和最佳实践是什么？

用python-docx操作Word文档，虽然方便，但也会遇到一些挑战，毕竟Word文档本身结构就挺复杂的。我个人在实践中就碰到过不少“坑”，总结了一些经验：

Python v2.4 中文手册 chm

Python v2.4版chm格式的中文手册，内容丰富全面，不但是一本手册，你完全可以把她作为一本Python的入门教程，教你如何使用Python解释器、流程控制、数据结构、模板、输入和输出、错误和异常、类和标准库详解等方面的知识技巧。同时后附的手册可以方便你的查询。

下载

一个常见的挑战是保留现有文档的复杂格式。python-docx在读取文档时，会把内容解析成它的对象模型，但写回时，不一定能完美复刻所有原始的、尤其是非标准或非常复杂的格式。比如，一些自定义的文本框、图形对象、SmartArt等，python-docx目前可能无法直接操作或保留。我的建议是，如果你的目标是修改一个已有文档的局部内容，并保持大部分格式不变，那么最好是“打开-修改-保存”，而不是“打开-提取内容-创建新文档-写入内容”，因为后者会丢失大量原始格式信息。

另一个挑战是处理大型文档的性能问题。当Word文档包含成千上万个段落或复杂的表格时，加载和保存可能会变得非常慢，甚至占用大量内存。这里没什么银弹，但一些最佳实践可以帮助：

避免不必要的修改： 尽量只修改你需要改变的部分。
批量操作： 如果需要添加大量相似内容，考虑构建数据结构，然后一次性生成，而不是循环多次调用add_paragraph。
分而治之： 对于特别大的文档，如果业务逻辑允许，可以考虑将其拆分成多个小文档处理，最后再合并（虽然python-docx本身没有直接的文档合并功能，可能需要其他库或手动实现）。

错误处理也是需要考虑的。比如，尝试打开一个不存在的文档，或者一个不是.docx格式的文件，都会抛出异常。使用try-except块来捕获FileNotFoundError或其他与文件操作相关的异常是基本操作。

至于最佳实践，我强烈建议：

熟悉Word的样式系统： python-docx对Word的样式支持很好。与其手动设置每个段落的字体、大小、颜色，不如定义或使用Word内置的样式，然后将样式应用到段落上。这不仅让代码更简洁，也让生成的文档更规范，便于后续编辑。
使用Run对象进行精细控制： 当你需要在一个段落内混合多种字体、颜色或粗斜体时，记住使用Run对象。一个段落可以包含多个Run，每个Run可以有独立的格式。
单元测试你的文档生成逻辑： 尤其是在生成报告或自动化文档时，确保生成的内容符合预期非常重要。可以编写测试用例，生成文档后，用python-docx重新读取并检查关键内容或结构。
版本控制你的文档模板： 如果你使用模板文档（例如，预设了页眉页脚、公司Logo的文档）作为基础，那么对这些模板进行版本控制，可以避免因为模板变动导致自动化脚本失效。

如何使用python-docx进行批量文档处理和自动化？

python-docx在批量文档处理和自动化方面，简直是生产力工具。想象一下，你需要为几百个客户生成定制化的合同、报告或者邀请函，如果手动操作，那将是噩梦。但有了python-docx，这变得轻而易举。

核心思路通常是：模板 + 数据 + 循环。

准备模板文档： 创建一个Word文档作为模板，里面包含所有固定不变的内容和格式。对于那些需要替换或填充的动态内容，你可以使用占位符。这些占位符可以是简单的字符串（例如{{客户姓名}}），也可以是更复杂的标记。
准备数据源： 动态数据通常来自CSV文件、Excel表格、数据库查询结果，甚至是API返回的JSON数据。确保你的数据结构清晰，能够方便地映射到模板中的占位符。
编写自动化脚本：
- 加载模板文档。
- 遍历你的数据源。
- 对于数据源中的每一条记录，复制（或重新加载）模板文档。
- 查找并替换模板中的占位符。这通常涉及到遍历文档的所有段落和表格单元格，检查其文本内容。
- 根据需要添加或删除段落、表格行、图片等。
- 保存为新的、定制化的文档。

举个例子，假设你有一个员工信息列表，需要为每位员工生成一份入职通知书：

from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH # 导入对齐方式

# 模拟员工数据
employees_data = [
    {"name": "王小明", "position": "软件工程师", "start_date": "2023年10月26日"},
    {"name": "陈丽", "position": "产品经理", "start_date": "2023年11月01日"},
    {"name": "赵刚", "position": "测试工程师", "start_date": "2023年10月30日"},
]

# 假设你有一个模板文件 '入职通知书模板.docx'
# 模板中包含占位符，例如：{{姓名}}、{{职位}}、{{入职日期}}

def generate_offer_letter(employee_info):
    try:
        # 加载模板文档
        doc = Document('入职通知书模板.docx')
    except FileNotFoundError:
        print("错误：未找到 '入职通知书模板.docx'，请确保模板文件存在。")
        return

    # 遍历文档的所有段落，替换占位符
    for paragraph in doc.paragraphs:
        # 替换文本
        if '{{姓名}}' in paragraph.text:
            paragraph.text = paragraph.text.replace('{{姓名}}', employee_info['name'])
        if '{{职位}}' in paragraph.text:
            paragraph.text = paragraph.text.replace('{{职位}}', employee_info['position'])
        if '{{入职日期}}' in paragraph.text:
            paragraph.text = paragraph.text.replace('{{入职日期}}', employee_info['start_date'])

        # 也可以更智能地处理Run，以保留部分格式
        # for run in paragraph.runs:
        #     if '{{姓名}}' in run.text:
        #         run.text = run.text.replace('{{姓名}}', employee_info['name'])
        #     # ...以此类推

    # 如果模板中有表格需要填充，也需要遍历表格的单元格
    # for table in doc.tables:
    #     for row in table.rows:
    #         for cell in row.cells:
    #             if '{{某个表格占位符}}' in cell.text:
    #                 cell.text = cell.text.replace('{{某个表格占位符}}', '实际数据')

    # 保存为新文件
    output_filename = f"入职通知书_{employee_info['name']}.docx"
    doc.save(output_filename)
    print(f"已生成：{output_filename}")

# 批量生成
print("开始批量生成入职通知书...")
for employee in employees_data:
    generate_offer_letter(employee)
print("批量生成完成。")

这个例子展示了最基本的文本替换。实际应用中，你可能还需要处理图片插入、动态表格行添加、条件性内容显示（例如，根据员工级别显示不同条款）等。对于更复杂的占位符替换，可以考虑使用正则表达式，或者更高级的模板引擎（虽然python-docx本身不带模板引擎，但你可以结合Jinja2等库，先用Jinja2生成一个包含WordML标签的XML，再用python-docx或直接操作XML）。这种自动化能力，是我认为python-docx最吸引人的地方之一。它把那些重复、枯燥的文档生成工作，变成了几行代码就能搞定的事情。

Python文件编码异常处理_跨平台解析【教程】

Python对象比较规则_eq方法说明【指导】

Python全栈项目开发进阶教程_FrontendBackend完整项目

Python持续集成进阶教程_GitHubActions与Jenkins实践

Python类属性与方法访问_作用范围说明【指导】