通过Scrapy 抓取链家网所有地区二手房数据

使用Python抓取深圳链家房地产数据,保存至mysql数据库,并进行数据分析
逻辑:
1、通过任意一个链家网址进入,抓取链家二级域名网址,如sz.lianjia.com;bj.lianjia.com
2、通过二级链接组装二手房链接地址,如sz.lianjia.com/ershoufang/
3、获取二手房页面的筛选条件标签:地区、价格等,如ershoufang/p2/,再次进行组装,与当前请求的url
–目标格式为sz.lianjia.com/ershoufang/p2/,可查询深圳市200-300万的房子
4、查询当前筛选条件共多少页,获取页面的页码最大值,进行循环生成最终请求的url
–如sz.lianjia.com/ershoufang/p2/pg2/
5、进行请求最终url,并保存页面房产信息
6、保存至mysql数据库

Configuration

前端框架:Bootstrap
爬虫框架:Scrapy+BeautifulSoup
数据库:Mysql

Project log

Creation date:2017/12/22 10:41
Version:0.1
Describe:

  • Create Project
  • Use Scrapy Requests
  • Use Bs4 Responses Data

Version:0.2
Update date:2017/12/25 20:37

  • Optimization data,(Id,Region,Garden,Layout,Size,Direction,Renovation,Elevator,Price)
  • Save To Mysql Data

Version:0.3

  • Analysis data

项目进展

1、目前卡在了0.3版本

原因:

  • 在看《使用python进行数据分析》
  • 学习Numpy,暂不知为何需要使用这个
  • 学习pandas,学习使用DataFrame与Series
  • 预备学习:pyplot
  • 还没有学习:matplotlib
    实际原因:
  • scrapy单机抓取太慢,电脑6天不关机,过滤重复数据后,才抓了18万条有效数据
  • 预计学习分布式抓取
  • 增量式爬取
  • 定时更新

等待完善

项目地址:https://gitee.com/supermaxwu/ShenzhenRealestate

    原文作者:17618a96cf01
    原文地址: https://www.jianshu.com/p/f9f343661b52
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞