selenium文档中关于等待第5章有专门的说明
现在的大多数的Web应用程序是使用Ajax技术。当一个页面被加载到浏览器时, 该页面内的元素可以在不同的时间点被加载。这使得定位元素变得困难, 如果元素不再页面之中,会抛出 ElementNotVisibleException 异常。 使用 waits, 我们可以解决这个问题。waits提供了一些操作之间的时间间隔- 主要是定位元素或针对该元素的任何其他操作。
Selenium Webdriver 提供两种类型的waits – 隐式和显式。 显式等待会让WebDriver等待满足一定的条件以后再进一步的执行。 而隐式等待让Webdriver等待一定的时间后再才是查找某元素。
显式等待:
显式等待是你在代码中定义等待一定条件发生后再进一步执行你的代码。 最糟糕的案例是使用time.sleep(),它将条件设置为等待一个确切的时间段。 这里有一些方便的方法让你只等待需要的时间。WebDriverWait结合ExpectedCondition 是实现的一种方式。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "myDynamicElement"))
)
finally:
driver.quit()
WebDriverWait(driver, 10)设置了一个10秒上限的等待时间
自动化的Web浏览器中一些常用的预期条件,下面列出的是每一个实现, Selenium Python binding都提供了一些方便的方法,这样你就不用去编写 expected_condition类或是创建至今的工具包去实现他们。传入的参数都是元组类型的locator,如(By.ID, ‘kw’)
expected_conditions as EC后面最最常接的预期条件:
#frame可见并切换到该frame上
EC.frame_to_be_available_and_switch_to_it
#元素可以点击,常用于按键
EC.element_to_be_clickable
#元素出现,只要一个符合条件的元素加载出来就通过
EC.presence_of_element_located
#元素出现,须所有符合条件的元素都加载出来,这个基本上就是你爬取的最主要内容了
EC.presence_of_all_elements_located
#判断某段文本是否出现在某元素中,常用于判断输入页数与实际高亮页数是否一致
EC.text_to_be_present_in_element
By后面常接的选择方式(未列出全部,全部请dir(By)查看):
By.CLASS_NAME #根据class的名称
By.ID #根据id的名称
By.TAG_NAME #根据标签的名称
#最最无敌的两个,直接从开发者工具中就可以无脑用css或xpath方法复制元素的位置
By.CSS_SELECTOR #应用CSS选择器方法
By.XPATH #应用XPATH选择器方法
以上一篇文章的登录QQ空间为例,我们用显式等待修改下代码:
from selenium import webdriver
#为了增加显式等待,增加以下三个模块
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
url = 'http://user.qzone.qq.com/'
driver = webdriver.Chrome()
driver.get(url)
#设置等待上限10秒
timeout = WebDriverWait(driver, 10)
#切换到登录框中的frame
timeout.until(EC.frame_to_be_available_and_switch_to_it((By.ID, 'login_frame')))
switcher_plogin = timeout.until(EC.element_to_be_clickable((By.ID, 'switcher_plogin')))
#点击“帐号密码登录”按钮
switcher_plogin.click()
#定位帐号输入框
username = timeout.until(EC.presence_of_element_located((By.ID, 'u')))
#username = driver.find_element_by_id('u')
#清空帐号输入框内容
username.clear()
#填写帐号
username.send_keys('你的账号')
password = timeout.until(EC.presence_of_element_located((By.ID, 'p')))
#password = driver.find_element_by_id('p')
password.clear()
password.send_keys('你的密码')
#点击“登录”按钮
log_in = timeout.until(EC.element_to_be_clickable((By.ID, 'login_button'))).click()
#driver.quit()
还可以用username.text获得标签中的文字信息。
隐式等待
如果某些元素不是立即可用的,隐式等待是告诉WebDriver去等待一定的时间后去查找元素。 默认等待时间是0秒,一旦设置该值,隐式等待是设置该WebDriver的实例的生命周期。
from selenium import webdriver
driver = webdriver.Firefox()
driver.implicitly_wait(10) # seconds
driver.get("http://somedomain/url_that_delays_loading")
myDynamicElement = driver.find_element_by_id("myDynamicElement")