scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品

2019年6月11日 442次阅读来源: a十二_4765

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

scrapy 跟 selenium 安装就不介绍了直接开始分析页面

下面地址为淘宝店铺：https://gongzhuxiaowu.taobao.com/search.htm

没有打广告的意思 –随便找的

1. 对页面进行分析

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

从图中找到需要爬取的内容分别为物品的名字价格以及销售多少

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

谷歌浏览器 f12 对页面进行分析发现他在 div/dl/dd/的a标签里

所以用xpath 提取页面（xpath 不会的请自行百度）

response.xpath(‘//dd[@class=”detail”]/a[@class=”item-name J_TGoldData”]/text()’).extract()

这里是从dd下开始查询不知道为何从div下查找是找不到的所以只能从 dd下查找

然后找到价格与已出售

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

可以看出名称跟价格以及出售是在dd 下的所以获取价格跟已售分别是

response.xpath(‘//dd[@class=”detail”]/div[@class=”attribute”]/div[@class=”cprice-area”]/span[@class=”c-price”]/text()’).extract()’)

response.xpath(‘//dd[@class=”detail”]/div[@class=”attribute”]/div[@class=”sale-area”]/span[@class=”sale-num”]/text()’).extract()

明天写循环今天先爬一个页面明天完善爬取所有

创建数据库表

DROP TABLE IF EXISTS `tianmao`;

CREATE TABLE `tianmao` (

`id` int(10) NOT NULL AUTO_INCREMENT,

`name` varchar(100) DEFAULT NULL,

`price` int(50) DEFAULT NULL,

`sold` int(100) DEFAULT NULL,

PRIMARY KEY (`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8;

spides下 taobao.py

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

中间件用来爬取动态数据使用selenium

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

settings

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》

在pipelines.py 实现插入数据库

《scrapy +selenium+chrome +mysql 爬取淘宝或天猫店铺下的物品》 mysql数据库

    原文作者：a十二_4765
    原文地址: https://www.jianshu.com/p/9e524afe50fd
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。