xml.dom.minidom 是 Python 轻量级 DOM 解析器,适合中小型 XML 文件;支持创建、解析、修改和删除节点,但存在空白符解析、无 XPath、内存占用高等限制。

xml.dom.minidom 是 Python 标准库中轻量级的 DOM 解析器,适合处理中小型 XML 文件,语法直观、上手快,但不适用于超大文件或需要高性能解析的场景。
创建和写入 XML 文档
用 minidom.getDOMImplementation() 创建空文档,再通过 createElement 和 createTextNode 构建节点,最后用 appendChild 组织结构。
示例:生成一个简单的学生信息 XML:
from xml.dom.minidom import getDOMImplementation
impl = getDOMImplementation()
doc = impl.createDocument(None, "students", None)
root = doc.documentElement
student = doc.createElement("student")
student.setAttribute("id", "1001")
name = doc.createElement("name")
name.appendChild(doc.createTextNode("张三"))
student.appendChild(name)
age = doc.createElement("age")
age.appendChild(doc.createTextNode("20"))
student.appendChild(age)
root.appendChild(student)
print(doc.toprettyxml(indent=" "))
注意:toprettyxml() 默认会在每行末尾加换行符,若需去除空行,可传入 encoding="utf-8" 并自行处理字符串(如过滤空行),或使用第三方库如 xml.etree.ElementTree 替代。
立即学习“Python免费学习笔记(深入)”;
解析已有 XML 字符串或文件
用 parse()(读文件)或 parseString()(读字符串)加载 XML,返回 Document 对象。
常用操作包括:
- getElementsByTagName(tagName):获取所有匹配标签名的元素节点(返回 NodeList)
- getAttribute(attrName):读取元素属性值
- firstChild.data 或 childNodes[0].data:读取文本子节点内容(注意空格和换行也可能是 textNode)
- hasChildNodes() 和 nodeType == Node.ELEMENT_NODE 可用于安全遍历
建议在读取文本内容前先检查节点是否存在、是否为文本节点,避免 AttributeError。
修改和删除节点
minidom 支持动态修改文档结构:
- 用 appendChild()、insertBefore() 添加节点
- 用 removeChild() 删除子节点(需持有父节点引用)
- 用 setAttribute() 修改或新增属性,用 removeAttribute() 删除属性
- 修改文本内容:找到对应 Text 节点后,赋值给 nodeValue
例如更新学生年龄:
age_node = student.getElementsByTagName("age")[0]
age_node.firstChild.nodeValue = "21"
常见陷阱与注意事项
minidom 的 DOM 模型较“忠实”于 XML 规范,但也带来一些易错点:
- 空白符(换行、缩进、空格)会被解析为 Text 节点,导致 childNodes 包含非预期节点 → 推荐用 getElementsByTagName 或遍历时判断 node.nodeType
- 没有内置的 XPath 支持,复杂查询需手动遍历 → 如需 XPath,改用 lxml 或 xml.etree.ElementTree + xpath 扩展
- 不支持命名空间的高级操作(如 prefix 绑定、namespaceURI 查询)→ 简单命名空间可用 getAttributeNS,但体验有限
- 内存占用随文档大小线性增长,不适合 GB 级 XML → 此时应选 SAX 或 iterparse
不复杂但容易忽略。










