基于区块链和scrapy-redis的云爬虫平台构想

2019年6月11日 574次阅读来源: littlemiaowu

内容：

1. 基于scrapy-redis搭建分布式爬虫，爬取的内容可以是社交类信息(微博，贴吧，虎扑)，也可以是商品信息(狗东，淘宝)

2. 设计云爬虫平台，用户将自己的爬虫提交到平台上后，可以用云上的服务器完成爬虫任务

3. 设计区块链系统，将比特币采用的POW中的一次试错更换成爬取一个网页，这样的话矿工的机器就充当了2中云上的服务器

行业现状：

1. 云爬虫

神箭手：只能爬取微信公众号、今日头条等信息

造数：主要面向企业，面向个人的只有爬取固定网页的选项

云采：采用类似于selenium的设计，模拟浏览器爬取数据，这样爬效率太低，而且会有加载失败、爬虫不稳定等风险

现在的主流云爬虫平台都有接口少、对个人不友好、不够灵活、效率低等问题，而且中心化的设计存在隐私泄露、数据丢失等风险。

如果自己搭建分布式爬虫平台的话，合适的解决方案是采用scrapy-redis框架，但这样做存在两方面的问题，用户找不到太多机器去完成爬虫任务，爬起来太慢；而且租用、维护redis服务器既浪费时间，也是一笔不小的开支。

2. 区块链

区块链目前的架构各有千秋，都能对各自面向的领域提供合适的解决方案，但以比特币为首的区块链架构所采用的POW机制只关注算力，毫无意义地浪费电力，这种设计是不能面向某种特定应用的。

项目的目标、意义：

基于scrapy-redis搭建一个云爬虫平台，用户以scapy代码的形式提交自己的爬虫任务到平台上，同时可以设置每爬取一个网页要支付给矿工多少手续费，平台把待爬取的任务放到redis中，矿工通过下载、解析redis中的页面来争夺记账权。每生成一个区块就奖励记账的矿工。

《基于区块链和scrapy-redis的云爬虫平台构想》 scrapy-redis框架

这种设计主要解决了爬虫效率低的问题，比如要爬某宝的信息，以个人电脑的网速和计算能力，想爬百万级的数据需要几个月时间，而且个人电脑不太可能一直爬而不休息，做分布式爬虫又会苦于没有设备。有了云平台的话，只要做成scrapy代码的形式就很容易被云爬虫平台解析，并且以有偿支付矿工费用的方式让矿工替自己完成任务。

基于云爬虫平台还可以做一个去中心化的搜索引擎，只要将所有网页都纳入爬取范围，再仿照常规搜索引擎的排序算法，就可以搭建一个没有竞价排名没有莆田医院的去中心化搜索引擎。

    原文作者：littlemiaowu
    原文地址: https://www.jianshu.com/p/9bf651ad721b
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。