XPath是用于在XML文档中查找节点的查询语言,支持路径表达式、谓语过滤和轴导航。通过/选择根下子节点,//查找任意位置元素,@选取属性,结合谓语[ ]进行条件筛选,如//book[@category='fiction'];利用contains()、text()等函数提升灵活性,配合child::、parent::等轴定位上下文节点,掌握基本语法与常见用法即可高效解析XML/HTML结构。

XPath 是一门专门用于在 XML 文档中查找和定位节点的查询语言。它被广泛应用于 XML 数据解析、网页抓取(如 HTML 页面,因为 HTML 可视为类 XML 结构)、自动化测试以及 XSLT 转换等场景。简单来说,XPath 就像给 XML 或 HTML 文档中的元素“指路”,让你能精准地找到某个标签、属性或文本内容。
XPath 基本语法结构
XPath 使用路径表达式来选取节点。这些表达式看起来类似文件系统的路径,但功能更强大。
常见节点类型:
-
元素节点:如
Hello 中的 title - 属性节点:如 id="123" 中的 id 属性
- 文本节点:元素内部的文字内容
- 根节点:整个文档的最顶层节点
基本路径表达式示例:
- /bookstore/book[1]:选择根元素 bookstore 下的第一个 book 子元素
- //title:从文档任意位置选择所有名为 title 的元素(不关心层级)
- /bookstore/book/title:选择 bookstore 下每个 book 元素内的 title 元素
- @lang:选择属性名为 lang 的属性节点,常与元素结合使用,如 //title[@lang='en']
常用轴和谓语(Predicates)
谓语用于过滤节点,写在方括号 [] 内,可以包含表达式或函数。
常见用法:
- //book[1]:选择第一个 book 元素
- //book[last()]:选择最后一个 book 元素
- //book[@category='fiction']:选择 category 属性值为 fiction 的 book
- //book[price>30]:选择 price 大于 30 的 book(支持数值比较)
- //book[contains(title, 'Python')]:选择 title 文本包含 "Python" 的 book
轴定义了相对于当前节点的导航方向,例如:
- child:::子节点(默认省略),如 child::title 等同于 title
- parent:::父节点,如 ../ 表示上级目录
- ancestor:::所有祖先节点
- following-sibling:::后面的同级兄弟节点
通配符与函数
XPath 支持多种通配符和内置函数,提高灵活性。
通配符:
- *:匹配任意元素节点,如 /bookstore/* 表示 bookstore 下的所有子元素
- @*:匹配任意属性节点
- node():匹配任意类型的节点(元素、属性、文本等)
常用函数:
- text():获取元素的文本内容,如 //title/text()
- contains(str1, str2):判断字符串是否包含另一字符串
- starts-with(str, prefix):判断是否以某字符串开头
- position():返回节点的位置,如 //book[position()
- count():统计节点数量
基本上就这些。掌握基础路径、谓语过滤和常用函数后,就能应对大多数 XML/HTML 解析任务。XPath 不复杂但容易忽略细节,比如区分 / 和 //,或者属性前加 @ 符号。多练习几个真实结构,很快就能上手。










