二. 爬虫原理和网页构造

2023年1月12日 122次阅读来源: 橄榄的世界

1. 爬虫原理

1）网络连接
简单点来说，计算机发送请求Request → 服务器回应Response，即实现了网络连接。

2）爬虫原理

爬虫其实完成两件事：
①模拟计算机对服务器发起Request；
②接收来自服务端的Response内容，并解析、提取所需信息。
多页面和跨页面爬虫
多页面爬虫：分析各网页的URL构成特点，构造出URL列表，然后利用循环取出URL爬取。
跨页面爬虫：爬取列表页的URL，并将其存入URL列表，然后利用循环取出URL爬取。

1）学习网页前端知识
2）通过Chrome的“检查”功能（F12快键键）或“查看网页源代码”功能。

    原文作者：橄榄的世界
    原文地址: https://www.jianshu.com/p/346ea435de7d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。