最推荐用xml.etree.ElementTree模块遍历XML:一、root.iter()递归获取所有节点;二、for child in root逐层处理直接子元素;三、findall()支持XPath子集精准定位;四、注意text/tail边界,必要时用lxml获取完整文本。

用Python遍历XML所有节点,最常用、最推荐的方式是使用内置的 xml.etree.ElementTree 模块。它轻量、标准、无需额外安装,适合绝大多数结构化XML解析需求。
一、基础遍历:用 iter() 获取全部节点
ElementTree 的 iter() 方法可递归遍历整棵树的所有元素(即所有开始标签),不管嵌套多深,一行代码就能拿到全部节点。
- 调用 root.iter() 返回一个迭代器,遍历所有 Element 对象
- 每个 Element 有 tag(标签名)、text(开始标签后、子元素前的文本)、tail(结束标签后的文本)等属性
- 若只要特定标签,如所有
,可写 root.iter('name')
二、逐层遍历:用 for 子节点 in 父节点
适用于需要按层级关系处理、或只关心直接子元素的场景。这种遍历不自动深入孙节点,需手动递归或嵌套循环。
- for child in root: 只遍历 root 的直接子元素
- 可在循环内对 child 再次用 for grandchild in child: 向下一层
- 配合 child.tag 和 child.text.strip() 提取内容更安全(避免 None 或空白)
三、带路径和条件的遍历:用 findall() 和 XPath 子集
ElementTree 支持有限但实用的 XPath 语法,适合精准定位。注意它不支持完整 XPath(如 //node),但 findall('.//node') 可模拟“全树查找”。
立即学习“Python免费学习笔记(深入)”;
-
root.findall('book/title') 查找 root 下所有
中的直接 -
root.findall('.//author') 查找整棵树中所有
(含任意深度) - 结合 get('attr_name') 获取属性值,例如 elem.get('id')
四、提取文本与属性的实用技巧
单纯遍历节点不够,常需提取结构化数据。注意 text/tail 的边界行为,避免遗漏或重复。
- elem.text 是该标签开始后、第一个子标签前的内容;没有子标签时才是全部内容
- 若要获取“标签内全部纯文本”(含子标签文本),可用 etree.tostring(elem, method='text', encoding='unicode').strip()(需 from lxml import etree)
- 更稳妥的做法:递归拼接 elem.text + 所有子节点的文本 + elem.tail,但需判空










