08_知乎

简述

本节继续实现知乎关注对象用户信息,主要使用 json 解析,cookie 模拟等手段实现。

目标对象

依旧是知乎轮子哥关注对象

使用包

import codecs
import json
import time, os #定时抓取
import requests 
import datetime #精确时间

主要实现方式

《08_知乎》 Paste_Image.png

通过抓包分析,确定目标json,尝试直接抓取,返回封装错误

{'error': {'message': '请求头或参数封装错误', 'code': 100, 'name': 'AuthenticationInvalidRequest'}}

尝试直接使用已登录cookie抓取

cookies = {}

raw_cookies = '自己的key,可通过F12浏览器,查看替换'

for line in raw_cookies.split(':'):
    key,value = line.split('=', 1)
    cookies[key] = value

def download_page(url):
    return requests.get(url,cookies=cookies, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }, timeout=120).json()

返回json解析

《08_知乎》 Paste_Image.png

总结

本次实现过程中主要涉及cookie模拟(还可扩展自行实现模拟登录,获取cookie),其他递归操作、文件输出、图片另存均于之前示例一致,只能算简单复习。

《08_知乎》 Paste_Image.png

源码:
spider_www.zhihu.com_following_json

    原文作者:过桥0811
    原文地址: https://www.jianshu.com/p/8f054f6e00a4
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞