| 是 XPath 的节点集并集运算符,用于合并左右两个节点集并去重,要求操作数必须为节点集,不可用于属性条件“或”逻辑或混合数据类型。

XPath 本身不支持用 |(管道符)“同时选择多个路径”来合并完全无关的节点集——它不是正则表达式里的“或”,而是 XPath 中的 并集运算符,专门用于合并两个已有的节点集。
什么是 | 运算符?
| 是 XPath 的集合并集操作符,作用是把左右两边返回的节点集合并成一个去重后的结果。它要求左右两边都必须是**节点集(node-set)**,不能是字符串、数字或布尔值。
例如:
/bookstore/book/title | /bookstore/book/price
这个表达式会选出所有 和所有 元素,合并为一个节点列表(顺序按文档顺序排列,重复节点自动去重)。
常见误用与注意事项
-
不能用于路径分支选择:像
//div[@class="a" | @class="b"]是错的 —— | 不能在属性值比较中当“或”逻辑用;正确写法是//div[@class="a" or @class="b"] -
不能混用数据类型:如
//name | "abc"会报错,因为右边是字符串,不是节点集 -
优先级较低:它比 `/`、`//`、`[]` 等低,必要时加括号明确范围,例如:
(//a | //span)/@href表示先取所有 a 和 span,再统一提取 href 属性
替代方案:当 | 不适用时怎么办?
如果目标是匹配多种标签、多种属性或多种条件,应使用更合适的 XPath 语法:
- 多标签:用
*或联合标签名,如//div | //span | //p✅(合法并集),或更简洁地用//*[self::div or self::span or self::p] - 多属性值:用
or,如//input[@type="text" or @type="email"] - 多层级路径逻辑:用
union函数(仅 XPath 2.0+)或分两次查询再合并(编程语言中处理)
实战小技巧
想一次性提取页面中「标题 + 副标题 + 摘要」三个不同结构的文本?可以这样写:
(//h1 | //h2[@class="subtitle"] | //div[@id="summary"]/p)[1]
→ 表示取这三个路径的所有匹配节点,然后取其中第一个(按文档顺序)
注意:XPath 1.0 不支持函数式链式调用,所以 (A | B | C)/text() 是安全的,但 A | B/text() 会出错(右边不是节点集)。










