二. 爬虫原理和网页构造

1. 爬虫原理

1)网络连接
简单点来说,计算机发送请求Request → 服务器回应Response,即实现了网络连接。

2)爬虫原理

  • 爬虫其实完成两件事:
    ①模拟计算机对服务器发起Request;
    ②接收来自服务端的Response内容,并解析、提取所需信息。

  • 多页面和跨页面爬虫
    多页面爬虫:分析各网页的URL构成特点,构造出URL列表,然后利用循环取出URL爬取。
    跨页面爬虫:爬取列表页的URL,并将其存入URL列表,然后利用循环取出URL爬取。

2.网页构造

1)学习网页前端知识
2)通过Chrome的“检查”功能(F12快键键)或“查看网页源代码”功能。

    原文作者:橄榄的世界
    原文地址: https://www.jianshu.com/p/346ea435de7d
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞