大数据学习笔记之爬虫系列（1）----爬虫简介

2019年5月19日 225次阅读来源: 杰梓

顾名思义，爬虫，可以将互联网理解成一张巨大的网，我们编写出一个爬虫程序，是创造出一只有明确需求的蜘蛛，从而在这张大网上爬行，抓取到我们所需要的网络资源。

请求网站并提取数据的自动化程序

网页的源代码。
获取网页的源代码最直接的途径：

打开浏览器（本文以谷歌浏览器为例）
鼠标右键，“检查”，或者是快捷键组合“Ctrl+Shift+I”
检查元素.png
上图即为百度首页的例子，我们单击选择“Element”,就可以看到百度首页的网页组成部分。

当然，当我们取大型网站的时候，还会有很多后期网页通过JS渲染的资源。

有些时候，我们抓取的网页成分和实际的不一样，这个时候就要用特定的方法解析JS：

《大数据学习笔记之爬虫系列（1）----爬虫简介》解决渲染问题.png

我们写爬虫程序，最终得到的数据即为这些特定的网页元素。

宏观上说，我们可以抓的资源有以下四类：

《大数据学习笔记之爬虫系列（1）----爬虫简介》可以抓取的数据.png

爬虫的基本流程

《大数据学习笔记之爬虫系列（1）----爬虫简介》爬虫的基本流程.png

如上图所示，爬虫的基本流程分为4部：

《大数据学习笔记之爬虫系列（1）----爬虫简介》 request and response.png

《大数据学习笔记之爬虫系列（1）----爬虫简介》 request.png

《大数据学习笔记之爬虫系列（1）----爬虫简介》 response.png

《大数据学习笔记之爬虫系列（1）----爬虫简介》解析方式.png

《大数据学习笔记之爬虫系列（1）----爬虫简介》保存数据.png

以上就是爬虫所涉及的框架元素。

    原文作者：杰梓
    原文地址: https://www.jianshu.com/p/57bd39635b3d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。