Python使用Requests抓取包图网小视频

抓取包图网视频

目标抓取全站视频数据保存在本地,并以网站视频名命名视频文件。
  1. 分析网页数据结构

    《Python使用Requests抓取包图网小视频》

《Python使用Requests抓取包图网小视频》

经分析我们可以发现总站数据我们可以从这四这选项下手

  1. 分析网页数据格式

    《Python使用Requests抓取包图网小视频》

《Python使用Requests抓取包图网小视频》 image.png

网页数据为静态

  1. 抓取下一页链接

《Python使用Requests抓取包图网小视频》 抓取下一页链接

  1. OK, 上代码!
import requests
from lxml import etree
import threading


class Spider(object):
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
        self.offset = 1

    def start_work(self, url):
        print("正在爬取第 %d 页......" % self.offset)
        self.offset += 1
        response = requests.get(url=url,headers=self.headers)
        html = response.content.decode()
        html = etree.HTML(html)

        video_src = html.xpath('//div[@class="video-play"]/video/@src')
        video_title = html.xpath('//span[@class="video-title"]/text()')
        next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0]
        # 爬取完毕...
        if next_page == "http:":
            return

        self.write_file(video_src, video_title)
        self.start_work(next_page)

    def write_file(self, video_src, video_title):
        for src, title in zip(video_src, video_title):
            response = requests.get("http:"+ src, headers=self.headers)
            file_name = title + ".mp4"
            file_name = "".join(file_name.split("/"))
            print("正在抓取%s" % file_name)
            with open(file_name, "wb") as f:
                f.write(response.content)

if __name__ == "__main__":
    spider = Spider()
    for i in range(0,3):
        # spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html")
        t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",))
        t.start()
  1. 运行结果

    《Python使用Requests抓取包图网小视频》
    《Python使用Requests抓取包图网小视频》

同学们 是不是so easy..!

(老师声明下, 仅限爬取绿色网站,其它颜色的不准的噢…)!
(原创文章,转载请注明出处)

    原文作者:空山老师
    原文地址: https://www.jianshu.com/p/227d53d4d77a
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注