pycharm使用scrapy框架(十步解决问题)

码代码最蛋疼在于解决bug和其它问题,自己摸索要很长时间,耗了3个多小时才找到适合自己的方法。之前在Ubuntu里弄linux图形化写scrapy就是bug不断,系统稳定性不咋样,折腾蛋都疼,不多讲了,看问题解决步骤吧。

第一步:在命令行pip install scrapy 不行就试试pip3 install scrapy或sudo pip install scrapy

第二步:在命令行进入自己想写这个项目的磁盘位置,如果去E盘则在命令行中输e: ,去G盘输g:

第三步:创建文件: scrapy startproject testdemo(testdemo为文件名,自己随意取)

第四步:打开pycharm ,点击左上角file > open ,找到刚才创建的文件(test)打开它

第五步:在pycharm最下面有个Terminal,此时应该已经默认在此文件夹了,输入cd test ,进入下一层目录,仔细看确实是自动建立了两个test,第二个test是真正我们有大作用的

第六步:衔接上一步,cd spiders,进入spiders文件夹,然后创建爬虫,输入命令:scrapy genspider myspider zhihu.com (myspider是爬虫名,随意取,后面那个是规定爬取的网址是一级域名)

第七步:创建好了爬虫,发现spiders 里没出现,不用着急,把spiders下拉收上去再点下来就出来了。然后写了爬虫发现运行不对劲,显示运行完了没结果那是因为scrapy默认不能在IDE中运行,所以我们自己搞个文件让它运行。在项目根目录建个文件,名字随意,我自己起了start.py(与scrapy.cfg同级)

《pycharm使用scrapy框架(十步解决问题)》 start.py创建

然后在start.py里面输入如下代码:

《pycharm使用scrapy框架(十步解决问题)》 代码

excute里的前两个字符串不变,最后一个是你自己取的爬虫名。

然后运行这个start.py就可以起到运行爬虫的作用,!!!!!!!!!!或文件也不建在Terminal里输入scrapy crawl myspider

第八步:如何运行发现报win32的错误就去以下链接地址可以下载:http://sourceforge.net/projects/pywin32/files%2Fpywin32/,找自己对应版本的win32。

我是python3.6所以下了链接:https://nchc.dl.sourceforge.net/project/pywin32/pywin32/Build%20221/pywin32-221.win-amd64-py3.6.exe

第九步:点击安装win32,再运行爬虫就可以了,有时候你安装win32时说什么 not found 多半是你下的对应版本不对,我之前下的是python3.6的win32出先这情况,但我下的是220版的,下来221就好了,不要只看后面那段,前面那个三个数字也重要

第十步:其实这不在这个范畴之内了,属于scrapy里面内容了,再报错看看报错里是不是有robot报错,去setting.py里把robot的协议注释掉,还不行就看看是不是User-Agent问题了

    原文作者:废宅欧巴
    原文地址: https://www.jianshu.com/p/0b7347011e0a
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞