查询多级目录,中间用*链接:

name_cache = driver.find_element_by_xpath("//div[@class='company-list']/*/div[@class='card']")

首先

Xpath (XML Path Language),是W3C定义的选择节点的语言

第一种:绝对位置:

此方法比较简单,例子:

xxx.find_element_by_xpath("/html/body/div[x]/form/input")

//x 代表第x个 div标签(索引从1开始而不是0)

当页面元素位置发生改变时,需要修改

第二种:相对位置:

举例: xxx.find_element_by_xpath(“//div[@class=’meneame’]/a”)

//定义class名字为meneame的div下的a标签

第三种:按照标签的属性进行定位:

举例:xxx.find_element_by_xpath(“//div[@class=’meneame’]”)

//定义class名字为meneame的div标签

第四种:选择第几个:

//div/*[2] 选择div下第二个元素

//div/p[position()>=2] 选择div下位置大于等于2的p标签

//div/p[last()] 选择div下最后一个p标签

第五种:并:

//div[@id=’a’ and @name=’b’] 选择id=a 并 class=b的div元素

第六种:父节点:

//div[@id=’a’]/.. 选择目标div的父节点

第七种:同级节点:

preceding-sibling选取当前节点之前的所有同级节点

following-sibling选取当前节点之后的所有同级节点

用法:

//div/following-sibling::p 选择div之后的同级的p节点 (div与p同级)

在使用selenium进行抓取url的时候,试图使用find_elements_by_xpath来获取。

因此想当然的直接使用XPATH的语法进行获取属性

事例缩略后xml结构如下

<div class=”qg-limit-list” data-spm=”1998564503” data-spm-max-idx>
<a href=”//item.taobao.com/item.htm?spm=a21bz.7725273.1998564503.46.1Tdtjr”>
<img src=”//img.alicdn.com/tps/TB1lUEgLpXXXXbzXXXXXXXXXXXX-114-114.png” class=”qg-img-tag”>

按照XPATH正常的语法,想要获取a标签的url也就是href的属性应该写作

//div[@class=”qg-limit-list”]/a/@href

然而在使用find_elements_by_xpath一直报错,显示只能存放element而不是object。

最后的解决办法就是,这里只取到标签级,想要获取元素在之后再获取如下

xpath_urls = '//div[@class="qg-limit-list"]/a'
urls_pre = browser.find_elements_by_xpath(xpath_urls)
url = urls_pre[0].get_attribute("href")

对,就是加.get_attribute(“href”),同理想要获得其他属性值,也可以通过他来获取。

这样也可以

page_btns = driver.find_elements_by_xpath(".//div[@class='pc-pager-wrap']/a[@class='pager-item router-link-active']")

if page_btns[-1].text=="下一页":

    new_url= page_btns[-1].get_attribute("href")