使用 Python LXML 和 XPath 稳健提取 HTML 链接文本教程

碧海醫心

发布时间：2025-11-10 12:48:01

491人浏览过

来源于php中文网

原创

使用 Python LXML 和 XPath 稳健提取 HTML 链接文本教程

本教程详细介绍了如何使用 python 的 lxml 库和 xpath 表达式从 html 链接中高效且稳健地提取文本内容。文章强调了在构建 xpath 时，应优先考虑使用元素属性（如 class）而非依赖脆弱的 dom 结构路径，并结合 //text() 函数来准确捕获目标文本。通过具体的代码示例，展示了如何编写更具弹性和可维护性的爬虫代码，避免因页面结构微小变动而导致的解析失败。

引言

在网页抓取和数据解析任务中，从 HTML 文档中提取特定文本内容是一项核心操作。Python 的 lxml 库结合 XPath 表达式，为我们提供了强大而灵活的工具。然而，许多初学者在构建 XPath 时，往往倾向于使用基于元素层级的绝对路径，这使得代码对网页结构变化非常敏感。本文将重点介绍一种更稳健的方法，通过利用 HTML 元素的属性来构建 XPath，并结合 //text() 函数来精确提取链接中的文本。

传统 XPath 的局限性

考虑以下 HTML 片段，我们需要提取标签内的文本 "Former United States Secretary Of State"：

Former United States Secretary Of State

如果使用基于层级的 XPath，例如 /html/body/div[5]/div[4]/div[5]/div[*]，这种方法存在显著缺陷：

脆弱性： 只要 HTML 结构发生微小变化（例如，页面顶部添加了一个新的 div），这个 XPath 就会失效。
可读性差： 冗长的路径难以理解和维护。
通用性差： 如果页面上存在多个相同结构但位置不同的目标元素，这种 XPath 很难通用。

使用 LXML 和属性构建稳健 XPath

为了克服上述问题，我们应该优先使用 HTML 元素的属性（如 id、class、name 等）来定位元素。lxml 库是处理 XML 和 HTML 的高效工具，它提供了 etree 模块来解析文档和执行 XPath 查询。

立即学习“Python免费学习笔记（深入）”；

BlessAI

Bless AI 提供五个独特的功能：每日问候、庆祝问候、祝福、祷告和名言的文本生成和图片生成。

下载

核心思想

利用 contains() 函数： 当元素的 class 属性包含多个值时，可以使用 XPath 的 contains() 函数进行模糊匹配。例如，div[contains(@class, 'tag')] 可以匹配所有 class 属性中包含 "tag" 的 div 元素。
使用 // 轴： // 轴表示从当前节点向下搜索所有后代节点，无论层级深度。这使得 XPath 不受父节点层级变化的影响。
结合 //text() 函数： //text() 是一个非常有用的 XPath 函数，它能够选择当前节点及其所有后代节点的文本内容，并将其作为一个列表返回。

示例代码

让我们通过一个具体的例子来演示如何提取上述 HTML 片段中的链接文本。

from lxml import etree

# 模拟的 HTML 内容
html_content = """
Header Content

    
        Former United States Secretary Of State
        Another Important Link Text
    

"""

# 使用 etree.HTML 解析 HTML 内容
tree = etree.HTML(html_content)

# 构建 XPath 表达式
# 1. //div[contains(@class,'tag')]：查找文档中所有 class 属性包含 'tag' 的 div 元素
# 2. //text()：选择上一步找到的 div 元素及其所有后代节点的文本内容
xpath_expression = "//div[contains(@class,'tag')]//text()"

# 执行 XPath 查询
selection = tree.xpath(xpath_expression)

# 打印结果
print("提取到的文本内容：")
for text_item in selection:
    # 对提取到的文本进行清理，去除首尾空白字符
    cleaned_text = text_item.strip()
    if cleaned_text: # 确保只打印非空字符串
        print(f"'{cleaned_text}'")

# 假设我们只关心第一个匹配项
if selection:
    first_text = selection[0].strip()
    print(f"\n第一个匹配到的文本：'{first_text}'")
else:
    print("\n未找到匹配的文本。")

代码解析：

from lxml import etree：导入 lxml 库的 etree 模块。
tree = etree.HTML(html_content)：将 HTML 字符串解析成一个 ElementTree 对象，这是进行 XPath 查询的基础。
xpath_expression = "//div[contains(@class,'tag')]//text()"：
- //div：在整个文档中查找所有 div 元素。
- [contains(@class,'tag')]：这是一个谓词，过滤 div 元素，只选择那些 class 属性值中包含子字符串 "tag" 的 div。
- //text()：在找到的 div 元素内部（包括其子元素）查找所有文本节点。
selection = tree.xpath(xpath_expression)：执行 XPath 查询，返回一个包含所有匹配文本内容的列表。
text_item.strip()：对每个提取到的文本进行清理，去除多余的空白字符。

注意事项与最佳实践

XPath 调试： 在浏览器开发者工具（如 Chrome DevTools）中，可以使用 document.evaluate() 或直接在 Console 中测试 XPath 表达式，以确保其正确性。
处理空结果： xpath() 方法返回一个列表。在访问列表元素（如 selection[0]）之前，务必检查列表是否为空，以避免 IndexError。
多重匹配： 如果 XPath 匹配到多个元素，xpath() 会返回一个包含所有匹配项的列表。你需要根据需求遍历列表或选择特定索引的元素。
文本清理： 提取到的文本可能包含多余的换行符、空格或制表符。使用 strip() 方法是常见的清理操作。
错误处理： 在实际的爬虫项目中，应加入更完善的错误处理机制，例如 try-except 块来捕获网络请求或解析错误。
XPath 轴和函数： 熟悉更多的 XPath 轴（如 parent::、following-sibling::）和函数（如 starts-with()、ends-with()、normalize-space()）可以帮助你构建更复杂的查询。

总结

通过本教程，我们学习了如何利用 Python 的 lxml 库和 XPath 表达式，以一种更稳健和可维护的方式从 HTML 链接中提取文本。关键在于放弃脆弱的绝对路径，转而使用基于元素属性（如 class）的相对路径，并结合 //text() 函数来精确获取文本内容。这种方法不仅提高了代码的鲁棒性，也使得爬虫程序更能适应目标网站的结构变化，从而大大提升了数据抓取的效率和稳定性。在实际开发中，始终优先考虑使用属性定位，将使你的爬虫项目更加健壮。

如何使用 Selenium（Python）精准提取网页中特定结构的链接

如何使用 Selenium（Python）精准提取网页中特定链接

如何使用 Selenium（Python）精准提取网页中特定链接集合

html5合并多个xml文件_将分散xml数据整合为一个的技巧【技巧】

html文件怎么打开显示不全_页面排版错乱的解决方法【说明】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

751

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

706

2023.08.11