基于区块链和scrapy-redis的云爬虫平台构想

内容:

1. 基于scrapy-redis搭建分布式爬虫,爬取的内容可以是社交类信息(微博,贴吧,虎扑),也可以是商品信息(狗东,淘宝)

2. 设计云爬虫平台,用户将自己的爬虫提交到平台上后,可以用云上的服务器完成爬虫任务

3. 设计区块链系统,将比特币采用的POW中的 一次试错 更换成 爬取一个网页,这样的话矿工的机器就充当了2中云上的服务器

行业现状:

1. 云爬虫

神箭手:只能爬取微信公众号、今日头条等信息

造数:主要面向企业,面向个人的只有爬取固定网页的选项

云采:采用类似于selenium的设计,模拟浏览器爬取数据,这样爬效率太低,而且会有加载失败、爬虫不稳定等风险

现在的主流云爬虫平台都有接口少、对个人不友好、不够灵活、效率低等问题,而且中心化的设计存在隐私泄露、数据丢失等风险。

如果自己搭建分布式爬虫平台的话,合适的解决方案是采用scrapy-redis框架,但这样做存在两方面的问题,用户找不到太多机器去完成爬虫任务,爬起来太慢;而且租用、维护redis服务器既浪费时间,也是一笔不小的开支。

2. 区块链

区块链目前的架构各有千秋,都能对各自面向的领域提供合适的解决方案,但以比特币为首的区块链架构所采用的POW机制只关注算力,毫无意义地浪费电力,这种设计是不能面向某种特定应用的。

项目的目标、意义:

基于scrapy-redis搭建一个云爬虫平台,用户以scapy代码的形式提交自己的爬虫任务到平台上,同时可以设置每爬取一个网页要支付给矿工多少手续费,平台把待爬取的任务放到redis中,矿工通过下载、解析redis中的页面来争夺记账权。每生成一个区块就奖励记账的矿工。

《基于区块链和scrapy-redis的云爬虫平台构想》 scrapy-redis框架

这种设计主要解决了爬虫效率低的问题,比如要爬某宝的信息,以个人电脑的网速和计算能力,想爬百万级的数据需要几个月时间,而且个人电脑不太可能一直爬而不休息,做分布式爬虫又会苦于没有设备。有了云平台的话,只要做成scrapy代码的形式就很容易被云爬虫平台解析,并且以有偿支付矿工费用的方式让矿工替自己完成任务。

基于云爬虫平台还可以做一个去中心化的搜索引擎,只要将所有网页都纳入爬取范围,再仿照常规搜索引擎的排序算法,就可以搭建一个没有竞价排名没有莆田医院的去中心化搜索引擎。

    原文作者:littlemiaowu
    原文地址: https://www.jianshu.com/p/9bf651ad721b
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞