Python lxml的iterwalk怎么用同时遍历元素和事件-XML/RSS教程-PHP中文网

Python lxml的iterwalk怎么用同时遍历元素和事件

幻夢星雲

发布： 2025-12-22 11:11:25

原创

527人浏览过

lxml.iterwalk()边遍历XML/HTML树边返回(element, event, data)三元组，event含'start'、'end'、'text'、'tail'，data在文本事件中为内容，其余为None；支持events参数筛选事件类型，适用于精细解析控制。

python lxml的iterwalk怎么用同时遍历元素和事件

lxml.iterwalk() 用来边遍历 XML/HTML 树边获取“事件”（如开始标签、结束标签、文本等），同时拿到对应元素对象。它比 iterparse() 更灵活，适合需要精细控制解析过程的场景，比如边解析边过滤、改写、统计或提取混合内容。

基本用法：获取事件和元素

调用 iterwalk() 时，默认返回三元组：(element, event, data)。其中：

element 是当前触发事件的 lxml 元素对象（etree.Element）
event 是字符串，常见值有：'start'（进入标签）、'end'（离开标签）、'text'（遇到文本节点）、'tail'（遇到尾部文本）
data 在 'text' 或 'tail' 事件中为对应文本内容；其他事件中为 None

示例：

from lxml import etree
<p><a style="color:#f60; text-decoration:underline;" title="html" href="https://www.php.cn/zt/15763.html" target="_blank">html</a> = '</p><div>
<p>Hello</p>
<p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">Python免费学习笔记（深入）</a>”；</p>
                    <div class="aritcle_card">
                        <a class="aritcle_card_img" href="/ai/1154">
                            <img src="https://img.php.cn/upload/ai_manual/000/000/000/175680126049574.png" alt="Motiff">
                        </a>
                        <div class="aritcle_card_info">
                            <a href="/ai/1154">Motiff</a>
                            <p>Motiff是由猿辅导旗下的一款界面设计工具，定位为“AI时代设计工具”</p>
                            <div class="">
                                <img src="/static/images/card_xiazai.png" alt="Motiff">
                                <span>148</span>
                            </div>
                        </div>
                        <a href="/ai/1154" class="aritcle_card_btn">
                            <span>查看详情</span>
                            <img src="/static/images/cardxiayige-3.png" alt="Motiff">
                        </a>
                    </div>
                
<span>World</span>
</div>'
root = etree.fromstring(html)<p>for elem, event, data in etree.iterwalk(root):
if event == 'start':
print(f"进入: {elem.tag}")
<a style="color:#f60; text-decoration:underline;" title="elif" href="https://www.php.cn/zt/200020.html" target="_blank">elif</a> event == 'end':
print(f"离开: {elem.tag}")
elif event == 'text' and data and data.strip():
print(f"文本: '{data.strip()}'")
</p>

登录后复制

只关注特定事件类型

可以通过 events 参数指定只监听哪些事件，减少干扰：

events=('start', 'end') —— 忽略文本和尾部，只跟踪结构变化
events=('start',) —— 类似深度优先遍历，每个元素第一次出现时触发
events=('end',) —— 每个元素完全解析完（子树处理完毕）后触发，适合做清理或汇总

例如，只在元素闭合时收集其完整文本（含子节点文本）：

texts = {}
for elem, event, data in etree.iterwalk(root, events=('end',)):
    if event == 'end':
        # 此时 elem 的所有子节点已处理完毕
        full_text = (elem.text or '') + ''.join(
            child.t<a style="color:#f60; text-decoration:underline;" title="ai" href="https://www.php.cn/zt/17539.html" target="_blank">ai</a>l or '' for child in elem
        )
        texts[elem.tag] = full_text.strip()

登录后复制

配合 XPath 或属性条件做条件遍历

可以在循环中结合 elem.tag、elem.get('attr') 或 elem.xpath() 做实时判断：

跳过某些标签：if elem.tag in ('script', 'style'): continue
只处理带特定 class 的 div：if elem.tag == 'div' and 'main' in elem.get('class', ''):
提取所有带 href 的 a 标签及其链接文本（注意 text/tail 分布）：

links = []
for elem, event, data in etree.iterwalk(root):
    if elem.tag == 'a' and elem.get('href') and event == 'start':
        # 记录链接地址
        href = elem.get('href')
        # 下一个非空 text 就是链接文本（简单情况）
        link_text = (elem.text or '').strip()
        if not link_text:
            # 可能文本在子节点里，或 tail 中，需进一步处理
            link_text = ''.join(t for t in elem.itertext()).strip()
        links.<a style="color:#f60; text-decoration:underline;" title="app" href="https://www.php.cn/zt/16186.html" target="_blank">app</a>end((href, link_text))

登录后复制