1. 爬虫原理
1)网络连接
简单点来说,计算机发送请求Request → 服务器回应Response,即实现了网络连接。
2)爬虫原理
爬虫其实完成两件事:
①模拟计算机对服务器发起Request;
②接收来自服务端的Response内容,并解析、提取所需信息。多页面和跨页面爬虫
多页面爬虫:分析各网页的URL构成特点,构造出URL列表,然后利用循环取出URL爬取。
跨页面爬虫:爬取列表页的URL,并将其存入URL列表,然后利用循环取出URL爬取。
2.网页构造
1)学习网页前端知识
2)通过Chrome的“检查”功能(F12快键键)或“查看网页源代码”功能。