scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》
《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

scrapy 跟 selenium 安装 就不 介绍 了 直接开始分析页面

下面地址为 淘宝店铺 :https://gongzhuxiaowu.taobao.com/search.htm

没有打广告的意思 –随便找的

1. 对页面进行分析

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

从图中找到需要爬取的内容 分别为 物品的名字  价格 以及销售多少

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

谷歌浏览器 f12 对页面进行分析 发现他在 div/dl/dd/的a标签里

所以用xpath 提取页面(xpath 不会的请自行百度)

response.xpath(‘//dd[@class=”detail”]/a[@class=”item-name J_TGoldData”]/text()’).extract()

这里是从dd下开始查询 不知道为何从div下查找是找不到的 所以只能从 dd下查找

然后找到价格 与 已出售

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

可以看出 名称 跟 价格 以及 出售是在dd 下的 所以 获取价格 跟 已售 分别是

response.xpath(‘//dd[@class=”detail”]/div[@class=”attribute”]/div[@class=”cprice-area”]/span[@class=”c-price”]/text()’).extract()’)

response.xpath(‘//dd[@class=”detail”]/div[@class=”attribute”]/div[@class=”sale-area”]/span[@class=”sale-num”]/text()’).extract()

明天写循环 今天先爬一个页面 明天完善爬取所有

创建数据库表

DROP TABLE IF EXISTS `tianmao`;

CREATE TABLE `tianmao` (

`id` int(10) NOT NULL AUTO_INCREMENT,

`name` varchar(100) DEFAULT NULL,

`price` int(50) DEFAULT NULL,

`sold` int(100) DEFAULT NULL,

PRIMARY KEY (`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8;

spides下 taobao.py

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

中间件 用来爬取动态数据 使用selenium

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

settings

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

在pipelines.py 实现插入数据库

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》 mysql数据库
《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

    原文作者:a十二_4765
    原文地址: https://www.jianshu.com/p/9e524afe50fd
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞