scrapy 爬取链家北京租房信息

《scrapy 爬取链家北京租房信息》 圣光的事,怎么能说脏呢。

介绍:

链家对爬虫初学者来说很友好,而且只爬取北京租房信息,数据量极小。

各区房源占比

《scrapy 爬取链家北京租房信息》

各区平均月租金和房源数量

《scrapy 爬取链家北京租房信息》

月租金的词云

《scrapy 爬取链家北京租房信息》

啧啧啧,不容易啊。

顺便看看代码方面,比较简陋。

环境:

Python(3.5.2)

MySQL(14) —— Navicat

IDE:pycharm

scrapy框架

因为只需要租房下的信息,所以获取url就简单很多

《scrapy 爬取链家北京租房信息》

然后是具体字段的获取,用的是 scrapy 的 ItemLoader 。这里因为要获取 item 的 list 的第一个,所以重新定义为ArticleItemLoader。

具体字段的过滤和对应 item 的插入放在items.py里。

《scrapy 爬取链家北京租房信息》

然后是pipelines中数据写入MySQL。

还用了selenium+chrome获取页面数据,用selenium可以获取动态数据。但也会影响爬虫性能,selenium会把scrapy的异步机制变为同步。不过这个影响对于本文爬虫并没有影响,因为数据量实在不多。

个人学习记录,文中如有出错和理解错误的地方欢迎指出。

    原文作者:黑瞎子_贾藤
    原文地址: https://www.jianshu.com/p/21b42977dcec
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞