例子中 在火车采集中使用了xpath方式来采集,分别对文章分开采集第一行 中间内容 和最后一行。

第一行的Xpath:

//div[@class="passage pl10 pr10 f14"]/p[1]

这里意思是
div标签有class=”passage pl10 pr10 f14″第一个p节点。
采集

 

 

中间内容获取

//*[@class="passage pl10 pr10 f14"]/p[text()=//*[@class="passage pl10 pr10 f14"]/p[position()>1] and text()!=//*[@class="passage pl10 pr10 f14"]/p[last()]]

使用了text()和and的来筛除第一行和最后以后
采集

 

最后一行获取
//*[@class="passage pl10 pr10 f14"]/p[last()]
使用了last()来获取最后一个p节点

火车采集Xpath

 

© 2012 Ai-WEB的博客 Suffusion theme by Sayontan Sinha