python+scrapy爬取应用商店数据

爬取流程:

1、定义提取的数据字段列表item或Item Loaders

2、定义Spider类的爬取规则,获取爬取数据列表item或Item Loaders.

     爬取利器:Xpath,CSS选择器,Beautiful soup,re

3、定义分析、处理和存储数据i列表。
      分析、处理、存储的方法可以放在管道pipeline里。

4、定义配置列表,包括代理,管道pipeline及spider组件等。

      代理也可以放在中间件里设置。

开动,这是我的第一个爬虫项目,好久没有写代码了,生疏了不少。

上代码:爬取豌豆荚下单个APP的历史更新记录,描述,分类和所有评论等关键数据。
ps,这里只爬单个的,爬取所有app或者某个分类的app信息这里不贴了,原理类似,很简单。

Spider部分代码如下:

《python+scrapy爬取应用商店数据》

上面取得是所有评论数据,因为有的评论超过几千,所以这里我取了最多30页也就是300条,够了。

获取后,然后在pipeline里把数据存到csv文件,pipe定义数据展示格式没做好,只做了循环,没有对数据的展示 进行处理,等事情忙完了再改这个吧~~

《python+scrapy爬取应用商店数据》

本来想自己码代码进行自然语言处理和数据挖掘,通过数据清洗,分词,实体抽取,然后词频统计和用户情感分析,分析出好评对应的标签有哪些,中差评对应的标签有哪些,好评和中差评的占比各自是多少,用户评论在时间上的变化趋势的,地域分布特点(但是豌豆荚界面里没有地域这个字段啊。。),用户手机的占比情况(结果豌豆荚里面没有用户手机这个字段。。)

用户关注焦点分析如下:

《python+scrapy爬取应用商店数据》

可以看到用户关注什么,然后针对性的完善。
发现这样的可视化我是无法通过肉眼很快的知道权重和排序,更浪费时间。最后用excel表列出关注度排序,如下:

《python+scrapy爬取应用商店数据》

接着进行了情感分析,总体好评54.73%多于中差评45.13%:

《python+scrapy爬取应用商店数据》

还有的数据分析有空再弄吧。

我要记得爬热点和热点词频(运营用,比如震惊)。。

另外,词云工具大家还可以用图悦,tagul。

     

    原文作者:徐薇薇
    原文地址: https://www.jianshu.com/p/8780bc81df03
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞