之前说了,我们直接抓取出来的网页是静态的,并不能获取到动态内容,可以通过selenium
来实现动态内容获取。
概念解释
Selenium 是一个测试工具,测试直接在浏览器中运行,就像真实用户所做的一样,所以可以模拟浏览器访问页面下载js内容和ajax内容,支持很多浏览器:
- Google Chrome
- Internet Explorer 7, 8, 9, 10, 11
- Firefox
- Safari
- Opera
- HtmlUnit
- PhantomJS
- Android
- iOS
PhantomJS是一个没有界面的浏览器,为什么使用这个呢,因为这样不用再打开一个浏览器了,是在背后运行,其实速度和其他浏览器是差不多的,某些情况下还不如其他浏览器速度快。
安装
Selenium官网。
pip install selenium
至于webdriver下载,对应的浏览器有不一样的下载地方,这个自己去找,提供一个Chrome Driver的下载地址:Chrome Driver
使用
self.driver = webdriver.PhantomJS()
self.driver.get(response.url)
selector = Selector(text=self.driver.page_source)
webdriver可以设置成多种,例如Chrome:
webdriver.Chrome("/Users/Carlton/chromedriver") # 构造参数是下载的ChromeDriver路径
这样我们就通过浏览器(PhantomJS可以理解成没有界面的浏览器)来下载了,下载完成的网页源代码通过driver.page_source
获取。
提一下这个Selector
,拿到源代码后需要分析网页的内容,通过Selector
就很简单,推荐使用Selector
而不是driver提供的xpath工具,因为很多时候driver提供的工具并不能按照预期运行。
项目实例
import json
from scrapy import Request
from scrapy import Selector
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider
from scrapy.utils.project import get_project_settings
from selenium.webdriver.support.wait import WebDriverWait
from selenium import webdriver
class TmallAndTaoBaoSpider(Spider):
name = "tts"
allowed_domains = ['tmall.com', 'taobao.com']
start_urls = []
total_items = 0
def __init__(self, *args, **kwargs):
super(TmallAndTaoBaoSpider, self).__init__(*args, **kwargs)
self.count = 0
self.error_count = 0
if keys is None or dt is None:
return
self.driver = webdriver.Chrome("/Users/Carlton/chromedriver")
url = "https://s.taobao.com/search?q=硬盘&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&style=list"
self.start_urls.append(url)
def __del__(self):
if self.driver is not None:
self.driver.quit()
def parse(self, response):
return self._parse_handler(response)
def _parse_handler(self, response):
self.driver.get(response.url)
selector = Selector(text=self.driver.page_source)
pass
解释一下,__init__
初始化了webdriver,等下用这个来下载动态地址,还初始化了start_urls
这个地址是用浏览器访问淘宝搜索拷贝出来的,这里我们搜索硬盘。需要注意的是parse必须返回Item或者Request,self.driver.get(response.url)
抓取数据后,通过self.driver.page_source
来获取动态的内容。这样爬虫开始后就会启动chrome浏览器,然后开始下载淘宝数据。
总结
这一篇写了,Selenium 和 PhantomJS等结合起来抓取动态数据。selenium是一个前端自动化测试工具,可以通过它来连接很多浏览器,通过webdriver连接的浏览器,然后把浏览器访问下载的内容通过selenium返回给Scrapy。
不登高山,不知天之高也;不临深溪,不知地之厚也
感谢指点、交流、喜欢