Python如何解析XML？结构化数据处理

星夢妙者

发布时间：2025-07-19 14:11:02

300人浏览过

来源于php中文网

原创

推荐使用xml.etree.elementtree模块解析xml。1. 它提供简洁高效的api处理xml数据，适用于读取、修改和创建操作。2. 通过将xml加载为树状结构，支持直观遍历和节点操作，适合中小型文件。3. 对于超大文件，推荐sax解析器，因其内存占用低，适合流式处理。4. 若需节点级操作，可选用xml.dom.minidom，但其内存消耗较大。5. 处理命名空间时，需在查找中显式包含uri或使用命名空间映射。6. 属性处理可通过elem.get()方法安全获取，避免因属性缺失导致程序崩溃。elementtree兼顾性能与易用性，是默认首选方案。

Python如何解析XML？结构化数据处理

Python解析XML，最常见且通常推荐的方式是使用其内置的xml.etree.ElementTree模块。它提供了一种简洁高效的API来处理XML数据，无论是读取、修改还是创建。对于大多数结构化数据处理场景，ElementTree都能很好地胜任，它以树状结构来表示XML文档，让我们能直观地遍历和操作节点。

解决方案

处理XML数据，通常的第一步是将其加载到内存中，然后进行遍历或查找特定元素。

假设我们有一个XML文件 data.xml：

立即学习“Python免费学习笔记（深入）”；


    
        产品A
        19.99
        这是一段关于产品A的描述。
    
    
        产品B
        29.50
        
            电子
            智能

使用ElementTree解析并提取信息：

import xml.etree.ElementTree as ET

# 1. 从文件解析XML
try:
    tree = ET.parse('data.xml')
    root = tree.getroot()
except FileNotFoundError:
    print("错误：data.xml 文件未找到。")
    # 也可以从字符串解析，例如：
    xml_string = """
    
        
            产品A
            19.99
        
    
    """
    root = ET.fromstring(xml_string)


print("根元素名称:", root.tag)

# 遍历所有  元素
print("\n--- 所有产品信息 ---")
for item in root.findall('item'):
    item_id = item.get('id') # 获取属性
    name = item.find('name').text if item.find('name') is not None else "N/A"

    price_elem = item.find('price')
    price = price_elem.text if price_elem is not None else "N/A"
    currency = price_elem.get('currency') if price_elem is not None else "N/A"

    description_elem = item.find('description')
    description = description_elem.text if description_elem is not None else "无描述"

    tags_elem = item.find('tags')
    tags = []
    if tags_elem is not None:
        for tag_elem in tags_elem.findall('tag'):
            tags.append(tag_elem.text)

    print(f"ID: {item_id}")
    print(f"  名称: {name}")
    print(f"  价格: {price} {currency}")
    print(f"  描述: {description}")
    print(f"  标签: {', '.join(tags) if tags else '无'}")
    print("-" * 20)

# 查找特定ID的产品
print("\n--- 查找ID为2的产品 ---")
for item in root.findall('item'):
    if item.get('id') == '2':
        name = item.find('name').text
        print(f"找到产品名称: {name}")
        break

Python处理大型XML文件：ElementTree、minidom与SAX的适用场景与性能考量

在实际工作中，我们经常会遇到需要处理大小不一的XML文件。Python提供了几种不同的解析器，每种都有其独特的优势和适用场景。选择哪一个，往往取决于XML文件的大小、内存限制以及我们对数据处理的粒度要求。

ElementTree (ET) 是一种“树型”解析器。它会将整个XML文档加载到内存中，构建一个完整的树状结构。对于大多数中小型XML文件，它的性能表现非常出色，API也直观易用。我个人倾向于优先使用它，因为它在易用性和效率之间找到了一个很好的平衡点。你可以轻松地进行各种查询、修改甚至删除操作。但如果文件非常大，比如几个GB，那么一次性加载到内存可能会导致内存溢出。

xml.dom.minidom 是另一个内置模块，它实现了W3C DOM (Document Object Model) 标准。与ElementTree类似，minidom也是将整个XML文档解析成一个DOM树。它的优点是提供了更丰富的API，更符合DOM规范，如果你熟悉JavaScript或Java中的DOM操作，会感觉很亲切。然而，minidom的内存消耗通常比ElementTree更大，解析速度也相对较慢。所以，除非你需要DOM特有的某些高级操作，或者文件实在很小，否则我很少直接选择minidom。它更适合那些需要对XML结构进行细致、节点级操作的场景，比如在内存中频繁地添加、删除或修改节点。

xml.sax 则完全不同，它是一个“事件驱动”的解析器。SAX不会将整个XML文档加载到内存中，而是边读取边触发事件（比如“开始标签”、“文本内容”、“结束标签”等）。这意味着它的内存占用极低，非常适合处理超大型XML文件，尤其是那些你只需要提取特定信息而不需要保留整个文档结构的情况。但它的缺点是使用起来相对复杂，你需要定义一个处理器类来响应各种事件，而且无法“回溯”或随机访问文档中的节点，因为数据是流式处理的。如果你需要统计某个标签出现的次数，或者从巨大的日志文件中筛选出符合特定条件的记录，SAX会是你的不二之选。但如果你的需求是查找某个特定父节点下的所有子节点，并进行修改，那么SAX就会变得非常麻烦。

Android创建和使用数据库详细指南中文WORD版

每个应用程序都要使用数据，Android应用程序也不例外，Android使用开源的、与操作系统无关的SQL数据库--SQLite，本文介绍的就是如何为你的Android应用程序创建和操作SQLite数据库。数据库支持每个应用程序无论大小的生命线，除非你的应用程序只处理简单的数据，那么就需要一个数据库系统存储你的结构化数据，Android使用SQLite数据库，它是一个开源的、支持多操作系统的SQL数据库，在许多领域广泛使用，如Mozilla FireFox就是使用SQLite来存储配置数据的，iPhon

下载

简单来说，我的选择策略是：

默认和首选： ElementTree，因为它兼顾了性能和易用性，适用于绝大多数场景。
内存敏感或超大文件： SAX，当你只需要流式处理部分数据，不关心整体结构时。
需要完整DOM操作或特定DOM API： minidom，但要留意其内存开销。

XML解析中的命名空间与属性处理：常见陷阱与实用技巧

XML命名空间（Namespaces）和属性是XML文档中非常重要的组成部分，它们让XML在结构化数据表达上更为强大和灵活。然而，在解析时，它们也常常是让人头疼的地方。

命名空间的处理： 命名空间是为了避免元素名冲突而引入的。想象一下，如果两个不同的系统都定义了标签，一个表示用户ID，另一个表示产品ID，没有命名空间就可能混淆。命名空间通过URI来唯一标识一组元素和属性名。在XML中，它们通常以xmlns属性或前缀形式出现，例如：或 .

在使用ElementTree解析时，命名空间是一个常见的“坑”。如果你有一个带有命名空间的XML：


    
        产品A
    
    一些数据

如果你直接root.find('item')，你会发现找不到任何东西，因为item实际上是{http://example.com/products}item。

正确的做法是，在find()或findall()方法中包含完整的命名空间URI，或者先注册命名空间前缀：

import xml.etree.ElementTree as ET

xml_with_ns = """

    
        产品A
    
    一些数据

"""
root = ET.fromstring(xml_with_ns)

# 方法一：在查询路径中直接使用完整URI
# 注意：默认命名空间需要显式地加上花括号
default_ns_data = root.find('{http://default.com/ns}data')
if default_ns_data is not None:
    print(f"默认命名空间下的数据: {default_ns_data.text}")

prod_item = root.find('{http://example.com/products}item')
if prod_item is not None:
    print(f"产品命名空间下的产品名称: {prod_item.find('{http://example.com/products}name').text}")

# 方法二：注册命名空间前缀（更推荐，尤其是命名空间URI很长时）
# ET.register_namespace('prod', 'http://example.com/products') # 仅用于序列化，不影响解析查找
# 查找时，仍然需要提供完整的URI，或者使用find的namespaces参数
namespaces = {
    'def': 'http://default.com/ns', # 为默认命名空间定义一个前缀
    'prod': 'http://example.com/products'
}

# 使用namespaces参数进行查找
prod_item_alt = root.find('prod:item', namespaces=namespaces)
if prod_item_alt is not None:
    print(f"使用注册前缀查找的产品名称: {prod_item_alt.find('prod:name', namespaces=namespaces).text}")

data_alt = root.find('def:data', namespaces=namespaces)
if data_alt is not None:
    print(f"使用注册前缀查找的默认命名空间数据: {data_alt.text}")

我个人觉得，直接在路径中使用{URI}tag的形式，虽然看起来有点冗长，但在代码中明确地指出了元素所属的命名空间，减少了歧义。而使用namespaces参数，则能让路径看起来更简洁，特别是当XML文档中有大量不同命名空间时，这种方式更易于管理。

属性的处理： 属性是附加在元素上的键值对，用于提供关于元素的额外信息。例如：。在ElementTree中，访问属性非常直观：

# 假设我们已经解析了XML，并且有一个item元素
# item = root.find('item') # 假设item存在

# 获取所有属性
print("所有属性:", item.attrib)

# 获取特定属性的值
item_id = item.get('id')
print(f"ID属性值: {item_id}")

# 获取不存在的属性，get方法可以提供默认值，避免KeyError
status = item.get('status', '未知状态')
print(f"状态属性值: {status}")

# 修改属性
item.set('status', 'inactive')
print(f"修改后的状态属性值: {item.get('status')}")

# 删除属性
if 'description' in item.attrib: # 检查是否存在
    del item.attrib['description']

处理属性时，最常见的问题是属性可能不存在。使用elem.get('attr_name', default_value)是一个非常好的习惯，它可以避免在属性缺失时程序崩溃，并提供一个合理的默认值。而直接访问elem.attrib['attr_name']则会在属性不存在时抛出KeyError，这在某些情况下可能不是我们期望的行为。

在处理复杂的XML时，我通常会结合XPath表达式进行更高级的查询，ElementTree也支持部分XPath语法，例如root.findall(".//item[@id='2']/name")，这能让查找变得更加灵活和强大。不过，对于非常复杂的XPath，可能需要借助lxml库，它提供了更完整的XPath支持和更好的性能。但对于日常任务，内置的ElementTree已经足够。

如何在 Windows 11 上成功安装 TA-Lib（Python 版）

如何在Python中正确获取类实例变量的最新值

Python类中如何正确获取实例变量的最新值（而非初始值）？

如何用Python高效生成三个互不相同的随机ID

如何正确将循环结果批量写入文件而非仅保存最后一项