python+scrapy爬取应用商店数据

2019年6月11日 444次阅读来源: 徐薇薇

爬取流程：

1、定义提取的数据字段列表item或Item Loaders

2、定义Spider类的爬取规则，获取爬取数据列表item或Item Loaders.

爬取利器：Xpath，CSS选择器，Beautiful soup，re

3、定义分析、处理和存储数据i列表。
分析、处理、存储的方法可以放在管道pipeline里。

4、定义配置列表，包括代理，管道pipeline及spider组件等。

代理也可以放在中间件里设置。

开动，这是我的第一个爬虫项目，好久没有写代码了，生疏了不少。

上代码：爬取豌豆荚下单个APP的历史更新记录，描述，分类和所有评论等关键数据。
ps，这里只爬单个的，爬取所有app或者某个分类的app信息这里不贴了，原理类似，很简单。

Spider部分代码如下：

《python+scrapy爬取应用商店数据》

上面取得是所有评论数据，因为有的评论超过几千，所以这里我取了最多30页也就是300条，够了。

获取后，然后在pipeline里把数据存到csv文件，pipe定义数据展示格式没做好，只做了循环，没有对数据的展示进行处理，等事情忙完了再改这个吧~~

《python+scrapy爬取应用商店数据》

本来想自己码代码进行自然语言处理和数据挖掘，通过数据清洗，分词，实体抽取，然后词频统计和用户情感分析，分析出好评对应的标签有哪些，中差评对应的标签有哪些，好评和中差评的占比各自是多少，用户评论在时间上的变化趋势的，地域分布特点（但是豌豆荚界面里没有地域这个字段啊。。），用户手机的占比情况（结果豌豆荚里面没有用户手机这个字段。。）

用户关注焦点分析如下：

《python+scrapy爬取应用商店数据》

可以看到用户关注什么，然后针对性的完善。
发现这样的可视化我是无法通过肉眼很快的知道权重和排序，更浪费时间。最后用excel表列出关注度排序，如下：

《python+scrapy爬取应用商店数据》

接着进行了情感分析，总体好评54.73%多于中差评45.13%：

《python+scrapy爬取应用商店数据》

还有的数据分析有空再弄吧。

我要记得爬热点和热点词频（运营用，比如震惊）。。

另外，词云工具大家还可以用图悦，tagul。

    原文作者：徐薇薇
    原文地址: https://www.jianshu.com/p/8780bc81df03
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。