用于pixiv漫画下载的爬虫

GitHub – mtclaw/pixivSpider: 根据p站号下载漫画的爬虫。

# 关于模拟登陆

本来是想自己弄一个cookie的,偷了个懒,用chrome插件Editthiscookie导出cookie.txt解决了

经测试Firefox的cookiemanager插件导出的cookie也能用

其他的就不知道了

# 关于常用设定参数

我用的下载参数有:

* p站号

* 原作

用到原作是因为我惯用的文件命名格式(

想要改动命名方式可以修foldCreate()和findMsg()和spider()里的filename变量

# 常见问题

* 冒出urllib.error.HTTPError,或者没有任何错误信息程序就不跑了:

    * 点进顶部链接,大家一起修

    * 或者从这个邮箱报错→mitsuclaws@gmail.com,不忙时会在一周内进行联系,工作忙时咕咕咕

    * 用来下载多页漫画一般是可以的,单页的没有测试过,而且我也不打算做这个功能

* 冒出urllib.error.HTTPError以外的报错:

    * 我也就见过一次,那次下的图片有点多,换个时间段下载就好了

* time.sleep()可不可以删掉:
    * 我不清楚p站有没有易恒泰那种大量下载ban ip的机制,所以写了这行给自己找不自在,强行减少下载量(

    * 删掉对程序本身是没有影响的

* 可不可以要个人定制版(

    * 请联系唯一指定邮箱mitsuclaws@gmail.com(

    * 不做gui,只有命令行

# 后续想法

* 加入多页漫画中只下载其中某页到某页的功能

* 加入从tag解析原作的功能

    原文作者:mtclaw
    原文地址: https://www.jianshu.com/p/27243005b4ad
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞