Scrapy爬虫框架：Selenium + PhantomJS

2023年11月5日 261次阅读来源: Carltony

之前说了，我们直接抓取出来的网页是静态的，并不能获取到动态内容，可以通过selenium来实现动态内容获取。

概念解释

Selenium 是一个测试工具，测试直接在浏览器中运行，就像真实用户所做的一样，所以可以模拟浏览器访问页面下载js内容和ajax内容，支持很多浏览器：

Google Chrome
Internet Explorer 7, 8, 9, 10, 11
Firefox
Safari
Opera
HtmlUnit
PhantomJS
Android
iOS

PhantomJS是一个没有界面的浏览器，为什么使用这个呢，因为这样不用再打开一个浏览器了，是在背后运行，其实速度和其他浏览器是差不多的，某些情况下还不如其他浏览器速度快。

安装

Selenium官网。
pip install selenium
至于webdriver下载，对应的浏览器有不一样的下载地方，这个自己去找，提供一个Chrome Driver的下载地址：Chrome Driver

使用

self.driver = webdriver.PhantomJS()
self.driver.get(response.url)
selector = Selector(text=self.driver.page_source)

webdriver可以设置成多种，例如Chrome：

webdriver.Chrome("/Users/Carlton/chromedriver") # 构造参数是下载的ChromeDriver路径

这样我们就通过浏览器（PhantomJS可以理解成没有界面的浏览器）来下载了，下载完成的网页源代码通过driver.page_source获取。
提一下这个Selector，拿到源代码后需要分析网页的内容，通过Selector就很简单，推荐使用Selector而不是driver提供的xpath工具，因为很多时候driver提供的工具并不能按照预期运行。

项目实例

import json

from scrapy import Request
from scrapy import Selector
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider
from scrapy.utils.project import get_project_settings
from selenium.webdriver.support.wait import WebDriverWait
from selenium import webdriver


class TmallAndTaoBaoSpider(Spider):
    name = "tts"
    allowed_domains = ['tmall.com', 'taobao.com']
    start_urls = []
    total_items = 0

    def __init__(self, *args, **kwargs):
        super(TmallAndTaoBaoSpider, self).__init__(*args, **kwargs)
        self.count = 0
        self.error_count = 0
        if keys is None or dt is None:
            return
        self.driver = webdriver.Chrome("/Users/Carlton/chromedriver")
        url = "https://s.taobao.com/search?q=硬盘&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&style=list"
        self.start_urls.append(url)

    def __del__(self):
        if self.driver is not None:
            self.driver.quit()

    def parse(self, response):
        return self._parse_handler(response)

    def _parse_handler(self, response):
        self.driver.get(response.url)
        selector = Selector(text=self.driver.page_source)
        pass

解释一下，__init__初始化了webdriver，等下用这个来下载动态地址，还初始化了start_urls这个地址是用浏览器访问淘宝搜索拷贝出来的，这里我们搜索硬盘。需要注意的是parse必须返回Item或者Request，self.driver.get(response.url)抓取数据后，通过self.driver.page_source来获取动态的内容。这样爬虫开始后就会启动chrome浏览器，然后开始下载淘宝数据。

总结

这一篇写了，Selenium 和 PhantomJS等结合起来抓取动态数据。selenium是一个前端自动化测试工具，可以通过它来连接很多浏览器，通过webdriver连接的浏览器，然后把浏览器访问下载的内容通过selenium返回给Scrapy。

上一篇：Scrapy爬虫框架：安装和开始新项目
下一篇：Scrapy爬虫框架：抓取淘宝天猫数据

😊查看更多😊
不登高山，不知天之高也；不临深溪，不知地之厚也
感谢指点、交流、喜欢

    原文作者：Carltony
    原文地址: https://www.jianshu.com/p/e0276ba788df
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。