使用 XPath 提取文本：substring-after 函数的应用-html教程-PHP中文网

使用 XPath 提取文本：substring-after 函数的应用

DDD

发布： 2025-10-10 10:02:16

原创

155人浏览过

使用 xpath 提取文本：substring-after 函数的应用

本文旨在解决使用 XPath 提取特定文本内容时遇到的问题，特别是当直接使用 text() 函数无法获取目标文本，且目标文本位于特定分隔符之后的情况。通过介绍 substring-after 函数的使用方法，帮助读者准确提取所需文本，并提供 XPath 表达式示例。

在进行网页数据抓取或 XML 文档解析时，XPath 是一种强大的工具，用于定位和提取文档中的元素和属性。然而，有时直接使用 text() 函数可能无法获取到目标文本，尤其是在文本节点周围存在其他元素或空白字符时。本文将介绍如何使用 XPath 的 substring-after 函数来解决这类问题，并提供详细的示例。

问题描述

假设我们有如下 HTML 代码片段，目标是提取 "Aug 7, 2019 at 9:34 am ET" 这段文本：

<span class="meta"><span class="authordata">
<a href="https://example.com" title="Posts by me" rel="author">Author</a></span> | Aug 7, 2019 at 9:34 am ET
</span>

登录后复制

如果直接使用 //span[@class="meta"]/text() 这样的 XPath 表达式，可能无法得到期望的结果，因为 text() 函数返回的是所有文本节点的集合，而目标文本可能不是第一个文本节点，或者前面存在空白字符。

解决方案：使用 substring-after 函数

substring-after 函数可以从一个字符串中提取指定分隔符之后的部分。它的语法如下：

substring-after(string, substring)

登录后复制

其中，string 是要搜索的字符串，substring 是分隔符。

在本例中，我们可以使用 substring-after 函数来提取 " | " 之后的内容。首先，我们需要定位到包含目标文本的 span 元素。一种方法是使用 span/a/@rel="author" 来定位包含作者链接的 span 元素。

AppMall应用商店

AI应用商店，提供即时交付、按需付费的人工智能应用服务

查看详情

然后，我们可以使用 substring-after 函数来提取 " | " 之后的内容。完整的 XPath 表达式如下：

substring-after(//span[span/a/@rel="author"],' |')

登录后复制

这个表达式首先找到包含作者链接的 span 元素，然后提取该元素的字符串值中 " | " 之后的部分，即 "Aug 7, 2019 at 9:34 am ET"。

示例代码 (Python + lxml)

以下是使用 Python 和 lxml 库来执行上述 XPath 表达式的示例代码：

from lxml import html

html_string = """
<span class="meta"><span class="authordata">
<a href="https://example.com" title="Posts by me" rel="author">Author</a></span> | Aug 7, 2019 at 9:34 am ET
</span>
"""

tree = html.fromstring(html_string)

xpath_expression = "substring-after(//span[span/a/@rel='author'],' |')"

result = tree.xpath(xpath_expression)

print(result)

登录后复制

这段代码首先使用 lxml 库将 HTML 字符串解析成一个树形结构。然后，使用 xpath 方法执行 XPath 表达式，并将结果打印出来。

注意事项