Python爬虫教程-01-爬虫介绍

Spider-01-爬虫介绍

Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所有对应变能力有些要求

基础知识

  • url, http
  • web前端,html,css,js
  • ajax
  • re,xpath

python 爬虫简介

爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

两大特征

  • 能按照作者要求下载数据
  • 能自动在网络上流窜

三大步骤

  • 下载网页
  • 提取正确的信息
  • 根据一定规则自动跳到另外的网页上执行上两步操作

爬虫分类

1、通用爬虫:

不分类,比如百度搜索引擎,我们通过百度输入数据,获取百度爬虫从各种网站爬到的数据、

2、专用爬虫(聚焦爬虫) :

就是我们介绍的,关于某一类的数据,比如说,需要爬智联招聘网站,某地区的招聘信息

Python网络包简介

  • Python2.*:urllib, urllib2, urllib3, httplib, httplib2, requests
  • Python3.*:urllib, urllib3, httplib2, requests
  • Python2:urllib, urllib2配合使用,或者requests
  • Python3:urllib,requests

———————

作者:肖朋伟

原文:

https://blog.csdn.net/qq_40147863/article/details/81429728blog.csdn.net

    原文作者:NicePython
    原文地址: https://zhuanlan.zhihu.com/p/62246679
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞