用Python从Word文档中提取文本和图片

王林

发布时间：2023-08-28 18:21:07

2305人浏览过

来源于php中文网

原创

从word文档中提取内容使我们能够将它们用于其他操作，例如将内容存储在数据库中、将内容导入到其他程序中、用于人工智能训练和创建其他文档。 spire.doc for python 可以轻松从 word 文档中提取文本和图像，无需大量复制和粘贴或复杂的代码。本文介绍如何使用简单的代码从 word 文档中提取并保存文本和图像内容。

为 Python 导入 Spire.Doc

在使用此工具编辑 Word 文档之前，您必须将其导入项目中。可以从Spire.Doc for Python官网下载或者直接用pip安装。代码如下所示：

pip install Spire.Doc
pip install plum-dispatch==1.7.4

Musterdokument

用Python从Word文档中提取文本和图片

从Word文档中提取文本并写入TXT文件

Spire.Doc for Python 的 Document.GetText() 方法可以检索 Word 文档中的所有文本并将其作为字符串返回。我们可以将返回的字符串写入文本文件中进行存储。步骤如下：

立即学习“Python免费学习笔记（深入）”；

创建一个文档对象。
使用 Document.LoadFromFile() 方法加载 Word 文档。
使用 Document.GetText() 方法从文档中获取文本。
Den abgerufenen Text in eine Textdatei schreiben.

代码贝斯皮尔

Python

Copy
from turtle import st
from spire.doc import *
from spire.doc.common import *

def WriteAllText(fname:str,text:List[str]):
        fp = open(fname,"w")
        for s in text:
            fp.write(s)
        fp.close()

inputFile = "Beispiel.docx"
outputFile = "Extrahierter Text.txt"

#Document-Objekt erstellen  
document = Document()

#Word-Dokument laden
document.LoadFromFile(inputFile)

#Text aus Dokument abrufen
text = document.GetText()

#Text in Textdatei schreiben
WriteAllText(outputFile, text)
document.Close()

Extrahierter Text

名品购物网店系统

适合品牌专卖店专用，从前台的美工设计就开始强调视觉形象，有助于提升商品的档次，打造网店品牌!后台及程序核心比较简洁，着重在线购物，去掉了繁琐的代码及垃圾程式，在结构上更适合一些中高档的时尚品牌商品展示. 率先引入语言包机制，可在1小时内制作出任何语言版本，程序所有应用文字皆引自LANG目录下的语言包文件，独特的套图更换功能，三级物品分类，购物车帖心设计，在国内率先将购物车与商品显示页面完美结合，完

下载

用Python从Word文档中提取文本和图片

Bilder aus Word-Dokument extrahieren und speichern

Das Extrahieren von Bildern ist etwas komplexer. Man muss prüfen, ob das untergeordnete Objekt des Dokumentenelements ein Bild oder ein zusammengesetztes Objekt ist. Bei einem Bild wird es gespeichert, bei einem zusammengesetzten Objekt muss geprüft werden, ob dessen untergeordnete Objekte Bilder enthalten. Die Schritte:

创建一个文档对象。
使用 Document.LoadFromFile() 方法加载 Word 文档。
Eine Warteschlange für zusammengesetzte Objekte erstellen und die Dokumentenelemente hinzufügen.
Eine Liste zum Speichern der extrahierten Bilder erstellen.
Die Dokumentenelemente durchlaufen und die untergeordneten Objekte jedes Knotens durchlaufen, um zu prüfen, ob es sich um ein zusammengesetztes Objekt oder Bildobjekt handelt.
Prüfen, ob das untergeordnete Element ein Bildobjekt ist. Wenn ja, die Bilddaten extrahieren und zur Liste hinzufügen.
Prüfen, ob das untergeordnete Element ein zusammengesetztes Objekt ist. Wenn ja, zur Warteschlange hinzufügen und weiter prüfen.
Bilder in einen Ordner speichern.

代码贝斯皮尔

Python

Copy
import queue
from spire.doc import * 
from spire.doc.common import *
import os

outputPath = "Bilder/"
inputFile = "Beispiel.docx"

if not os.path.exists(outputPath):
    os.makedirs(outputPath)

#Document-Objekt erstellen
document = Document()  

#Word-Dokument laden
document.LoadFromFile(inputFile)

#Warteschlange erstellen und Dokumentenelemente hinzufügen
nodes = queue.Queue()
nodes.put(document)

#Liste erstellen
images = []

#Dokumentenelemente durchlaufen
while nodes.qsize() > 0:
    node = nodes.get()
    for i in range(node.ChildObjects.Count):
        #Untergeordnetes Objekt des Dokumentenelements abrufen
        child = node.ChildObjects.get_Item(i)
        #Prüfen, ob es ein Bild ist
        if child.DocumentObjectType == DocumentObjectType.Picture:
            picture = child if isinstance(child, DocPicture) else None
            dataBytes = picture.ImageBytes
            #Zur Liste hinzufügen
            images.append(dataBytes)
        #Prüfen, ob es ein zusammengesetztes Objekt ist
        elif isinstance(child, ICompositeObject):
            #Zur Warteschlange hinzufügen
            nodes.put(child if isinstance(child, ICompositeObject) else None)

#Bilder speichern
for i, item in enumerate(images):
    fileName = "Bild-{}.png".format(i)
    with open(outputPath+fileName,'wb') as imageFile:
        imageFile.write(item)

document.Close()

Extrahierte Bilder

用Python从Word文档中提取文本和图片

Der extrahierte Text wird mit angehängten Bewertungsinformationen gespeichert. Sie können die Bewertungsinformationen direkt am Anfang des Textes löschen. Die extrahierten Bilder sind nicht mit einem Wasserzeichen versehen.