爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。
本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。
爬虫的学习就是跟着实际项目去学,每个项目会涉及到不同的知识点,项目做多了,自然也就会了。练练练!!!!
本文推荐的资源就是以项目练习带动爬虫学习,囊括了大部分爬虫工程师要求的知识点。
爬虫工程师要求知识点
1、python入门和进阶(进阶的包括多进程等等)
2、HTTP知识(因为要爬的是网页,所以要了解网页)
2、web前端:HTML、CSS、Javascript等
3、爬虫知识(爬虫基本库的使用、scrapy框架等)
4、反爬虫(代理池、分布式等等)
5、数据库(大批量数据的储存涉及mysql等)
先导知识
HTTP协议:https://www.cnblogs.com/ranyo…
html,css,javascript:学爬虫这些东西是肯定要看的,推荐W3school,倒也不用全看,懂个大概就好了
最佳学习资源推荐
前期教程:https://cuiqingcai.com/1052.html(现今网上最全的爬虫学习教程)
目录列表:
但是,只学完上面是不够找工作的,所以我整理了下面的资料,是我花了几个月时间自学,精选来的教程,重中之重。包含知识点:IP代理、mongoDB、mysql、抓包、分布式、selenium、模拟登陆、cookie等等
爬虫实战项目一,涉及知识点:mysql储存、断点续爬、抓包app、ip代理、cookie模拟登陆
1、https://zhuanlan.zhihu.com/p/…
2、https://zhuanlan.zhihu.com/p/…
3、https://www.cnblogs.com/hearz…
4、https://www.jianshu.com/p/887…
爬虫实战项目二,涉及知识点:scrapy具体应用
scrapy知识点:https://www.cnblogs.com/cnkai…
scrapy中文文档:https://scrapy-chs.readthedoc…
scrapy项目实战:https://www.cnblogs.com/cnkai…
补充:https://segmentfault.com/a/11…
爬虫实战项目三,涉及知识点:去重、分布式、多进程、模拟登陆
1、https://cuiqingcai.com/4352.html
数据库,掌握基本用法即可
mysql:http://www.runoob.com/mysql/m…
mongodb:http://www.runoob.com/mongodb…
找工作必备
计算机基础,包含(数据结构与算法、计算机网络协议等计算机专业基本课程、我前面的文章里有介绍怎么学),非计算机专业学生容易忽略
其他技能(可选,加分)
javascript,验证码,app破解
1、要想破解加密,得非常强悍的javascript基础,这个我也不是很懂
2、验证码,工业界目前破解验证码还是用打码平台
3、现在不仅仅是网站破解了,很多公司需要你抓app的数据,抓包最常用,你还得会app脱壳之类的,这些我就不懂了。
拓展阅读:
一文了解爬虫与反爬虫
https://segmentfault.com/a/11…
最后,请注意,爬虫的工作机会相对较少。
讨论学习,文章发布,公众号:learningthem