简单说,xpath就是选择XML文件中节点的方法。
所谓节点(node),就是XML文件的最小构成单位,一共分成7种。
- element(元素节点)
- attribute(属性节点)
- text (文本节点)
- namespace (名称空间节点)
- processing-instruction (处理命令节点)
- comment (注释节点)
- root (根节点)
xpath可以用来选择这7种节点。不过,下面的笔记只涉及最常用的第一种element(元素节点),因此可以将下文中的节点和元素视为同义词。一、xpath表达式的基本格式
xpath通过"路径表达式"(Path Expression)来选择节点。在形式上,"路径表达式"与传统的文件系统非常类似。
# 斜杠(/)作为路径内部的分割符。
# 同一个节点有绝对路径和相对路径两种写法。
# 绝对路径(absolute path)必须用"/"起首,后面紧跟根节点,比如/step/step/...。
# 相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用"/"起首。
# "."表示当前节点。
# ".."表示当前节点的父节点
二、选择节点的基本规则
- nodename(节点名称):表示选择该节点的所有子节点
- "/":表示选择根节点
- "//":表示选择任意位置的某个节点
- "@": 表示选择某个属性
三、选择节点的实例
先看一个XML实例文档。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book><book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book></bookstore>
[例1]
bookstore :选取 bookstore 元素的所有子节点。
[例2]
/bookstore :选取根节点bookstore,这是绝对路径写法。
[例3]
bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。
[例4]
//book :选择所有 book 子元素,而不管它们在文档中的位置。
[例5]
bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。
[例6]
//@lang :选取所有名为 lang 的属性。
四、xpath的谓语条件(Predicate)
所谓"谓语条件",就是对路径表达式的附加条件。
所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。
[例7]
/bookstore/book[1] :表示选择bookstore的第一个book子元素。
[例8]
/bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
[例9]
/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
[例10]
/bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。
[例11]
//title[@lang] :表示选择所有具有lang属性的title节点。
[例12]
//title[@lang='eng'] :表示选择所有lang属性的值等于"eng"的title节点。
[例13]
/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。
[例14]
/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。
[例15]
/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。
[例16]
/bookstore/book/price[.>35.00] :表示选择值大于35的"/bookstore/book"的price子元素。
五、通配符
# "*"表示匹配任何元素节点。
# "@*"表示匹配任何属性值。
# node()表示匹配任何类型的节点。
[例17]//* :选择文档中的所有元素节点。
[例18]
/*/* :表示选择所有第二层的元素节点。
[例19]
/bookstore/* :表示选择bookstore的所有元素子节点。
[例20]
//title[@*] :表示选择所有带有属性的title元素。
六、选择多个路径
用"|"选择多个并列的路径。
[例21]
//book/title | //book/price :表示同时选择book元素的title子元素和price子元素。
Xpath学习笔记
1. /AAA:选择根元素AAA
2. //BBB:所有BBB元素
3. /AAA/CCC/DDD/*:选择/AAA/CCC/DDD/下所有元素
4. /*/*/*/BBB:选择有3个祖先元素的BBB元素
5. //*:选择所有元素
6. /AAA/BBB[1]:选择AAA的第一个BBB子元素
7. //@ID:选择所有的ID属性;//BBB[@ID]:选择有ID属性的BBB元素;//BBB[@*]:选择有任意属性的BBB元素;//BBB[not (@*)]:选择没有属性的BBB元素
8. //BBB[normalize-space(@name)=’bbb’] :选择含有name且值(用mormalize-space去掉前后空格)为‘bbb’的BBB元素
9. //*[count(BBB)=2]:选择含有2个BBB子元素的元素;//*[count(*)=2];
10. Name():返回元素名称;start-with():第一个参数是以第二个参数为开始的为TRUE;contains():第一个参数包含第二个参数时为true;例:
1) //*[name()=’BBB’]:名称为BBB的元素
2) //*[starts-with(name(),’B’)]:所有名称为B起始的元素
3) //*[contains(name(),’C’)]:所有名称包含C的元素
11. |:多个路径合并在一起。例://CCC|//BBB:选择所有的CCC和BBB元素;
12. Child轴:
1) /AAA:等价于/child::AAA
2) /AAA/BBB:等价于/child::AAA/child::BBB等价于/child:AAA/BBB
13. Descendant后代轴:不会包含属性和命名空间节点
/descendant::*:选择文档根元素的所有后代,即所有的元素被选择
/AAA/BBB/descendant::*:选择/AAA/BBB的所有后代元素
//CCC/descendant::*:选择在祖先元素中有CCC的所有元素
//CCC/descendant::DD:选择所有以CCC为祖先元素的DDD元素
14. Parent轴:包含上下文节点的父节点。
//DDD/parent::*:选择DDD元素的所有父节点
15. Ancestor轴:包含上下节点的祖先节点,由父节点以及父节点的父节点等构成,所以总是包含根节点,除非上下文节点就是根节点本身。
/AAA/BBB/DDD/CCC/EEE/ancestor::*:选择一个绝对路径上的所有节点
//FFF/ancestor::*:选择FFF元素的祖先节点
16. Following-sibling轴:上下文节点之后的所有兄弟节点
/AAA/BBB/following-sibling::*
17. Preceding-sibling轴:包含上下文节点之前的所有兄弟节点
/AAA/XXX/preceding-sibling::*:
18. Following轴:包含同一文档中按文档顺序位于上下文节点之后的所有节点,除了祖先节点,属性节点和命名空间节点
/AAA/XXX/following::*
19. preceding 轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点,如/AAA/XXX/preceding::*
20. descendant-or-self轴:包含上下文节点本身和该节点的后代节点,如:/AAA/XXX/descendant-or-self::*
21. ancestor-or-self轴:包含上下文节点本身和该节点的祖先节点
22. ancestor, descendant, following, preceding 和self轴(axis)分割了XML文档(忽略属性节点和命名空间节点), 不能交迭, 而一起使用则包含所有节点,例://GGG/ancestor::*
23. div运算符做浮点除法运算, mod运算符做求余运算, floor 函数返回不大于参数的最大整数(趋近于正无穷), ceiling 返回不小于参数的最小整数(趋近于负无穷) ,例:
1) //BBB[position() mod 2 = 0 ];
2) //CCC[ position() = floor(last() div 2 + 0.5) or position() = ceiling(last() div 2 + 0.5) ]