lxml是Python中处理HTML/XML的高效工具,推荐用pip install lxml安装,支持XPath和CSS选择器,html.etree适合不规范HTML,etree适合严格XML,注意编码、命名空间等细节。

直接用 pip 安装 lxml,然后用 etree 模块解析 HTML 或 XML,它速度快、功能全,是 Python 里处理结构化文本的主力工具。
在命令行运行:
pip install lxml
libxml2-dev 或 libxslt-dev),先装系统依赖:sudo apt-get install libxml2-dev libxslt-dev python3-dev(Ubuntu/Debian)brew install libxml2 libxslt
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ lxml
lxml 的 html.etree 更适合处理不规范的网页 HTML(比如缺闭合标签、大小写混用)。
from lxml import html
<h1>从字符串解析</h1><p>html_str = "<div><p class='title'>Hello</p>
<div class="aritcle_card">
<a class="aritcle_card_img" href="/ai/2392">
<img src="https://img.php.cn/upload/ai_manual/001/246/273/176352302537509.png" alt="萝卜简历">
</a>
<div class="aritcle_card_info">
<a href="/ai/2392">萝卜简历</a>
<p>免费在线AI简历制作工具,帮助求职者轻松完成简历制作。</p>
<div class="">
<img src="/static/images/card_xiazai.png" alt="萝卜简历">
<span>171</span>
</div>
</div>
<a href="/ai/2392" class="aritcle_card_btn">
<span>查看详情</span>
<img src="/static/images/cardxiayige-3.png" alt="萝卜简历">
</a>
</div>
<p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">Python免费学习笔记(深入)</a>”;</p></div>"
tree = html.fromstring(html_str)</p><h1>从文件解析</h1><h1>tree = html.parse("page.html")</h1><h1>用 XPath 提取内容</h1><p>title = tree.xpath("//p[@class='title']/text()") # ['Hello']
print(title)
html.fromstring() 返回 Element 对象;html.parse() 返回 Document 对象,需调 .getroot() 才能用 XPathXML 要求格式规范,推荐用 etree(不是 html.etree)。
from lxml import etree
<p>xml_str = "<root><item id='1'>A</item><item id='2'>B</item></root>"
root = etree.fromstring(xml_str)</p><h1>获取所有 item 元素</h1><p>items = root.xpath("//item")
for item in items:
print(item.text, item.get("id")) # A 1 \n B 2</p><h1>或用 find/findall(更面向对象)</h1><p>first_item = root.find("item")
print(first_item.get("id")) # '1'
etree.fromstring() 解析字符串;etree.parse("file.xml") 解析文件cssselect 模块,但 lxml 自带 cssselect)<meta charset="utf-8">),或手动声明:html.fromstring(html_str.encode("utf-8"))
),如不需要,可用 parser = html.HTMLParser(recover=False)
etree.tostring(element, encoding="unicode", method="html")
namespaces 字典,XPath 中用前缀引用,例如 root.xpath("//x:title", namespaces={"x": "http://example.com/ns"})
以上就是Python lxml库怎么安装和使用 lxml解析HTML和XML的详细内容,更多请关注php中文网其它相关文章!
HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号