
在xpath中,text()函数常用于提取元素的直接文本子节点。然而,当一个元素包含多个文本节点(例如,文本被其他子元素分隔,或包含空白字符的文本节点)时,text()的行为可能会变得复杂,尤其是在xpath 1.0环境中。
考虑以下HTML结构:
<span class="meta"><span class="authordata"> <a href="https://example.com" title="Posts by me" rel="author">Author</a></span> | Aug 7, 2019 at 9:34 am ET </span>
我们的目标是提取 Aug 7, 2019 at 9:34 am ET 这段文本。 如果尝试使用常见的XPath表达式 //span[@class="meta"]/text(),可能会发现它返回空值或者并非我们期望的结果。这是因为:
例如,在上述HTML中,//span[@class="meta"]/text() 可能返回的第一个文本节点是 <span class="authordata">...</span> 标签后的换行符和空格,或者 | 之前的空白。
为了解决 text() 函数的局限性并精确提取目标文本,我们可以采用更高级的策略:
针对上述HTML结构,我们可以使用 | 作为分隔符。首先,我们需要找到包含目标文本的父 <span> 元素。一个更健壮的方法是利用其子元素 <a> 的属性来定位:
//span[span/a/@rel="author"]
这个XPath表达式会找到所有 class="meta" 的 <span> 元素,并且这个 <span> 元素内部含有一个 <span> 子元素,该子元素又含有一个 <a> 标签,且 <a> 标签的 rel 属性值为 "author"。这确保了我们定位到的是正确的父元素。
接下来,我们将 substring-after 函数应用于这个父元素的字符串值,并以 ' |' 作为分隔符:
substring-after(//span[span/a/@rel="author"],' |')
解析这个表达式:
执行这个XPath表达式,将精确地返回:
Aug 7, 2019 at 9:34 am ET
通过理解 text() 的工作原理及其局限性,并灵活运用 substring-after 等字符串函数,我们可以更精确、更高效地从复杂的HTML或XML文档中提取所需文本。这种方法在处理非标准或结构不规整的网页数据时尤其有效。
以上就是XPath文本提取进阶:利用substring-after精确获取目标文本的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号