scrapy爬取今日头条

参考网站:http://blog.csdn.net/u011475134/article/details/70198533

《scrapy爬取今日头条》

参考网站:http://www.jianshu.com/p/5a93673ce1c0  这位大神写的很详细,不过现在api这个接口有点变化,多了一个参数

《scrapy爬取今日头条》

经过测试,这个参数可以固定!

start_urls=[

‘https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr’]

《scrapy爬取今日头条》 请求头

加密算法和js   http://www.cnblogs.com/xuchunlin/p/7097391.html  感谢!

加密的js没找到,直接用大神写的解密方式

《scrapy爬取今日头条》

《scrapy爬取今日头条》 从redis获取数据重组

《scrapy爬取今日头条》 json数据
《scrapy爬取今日头条》 解析json数据

一开始使用的是,抽取”source_url”的数据,然后301重定向可以访问详细页,跑了几遍之后会有一些奇怪的url,最后发现这样的方式不行,然后重组url。

《scrapy爬取今日头条》 获取下一部分

《scrapy爬取今日头条》 下一部分,只使用10次

3.详细页解析

《scrapy爬取今日头条》 不是我们熟悉的html呈现,而是js的形式

解析:正则!!====>解析正文部分。

《scrapy爬取今日头条》

可以看到有'<>’的html里面的大于小于号

一开始是,把这些符号用正则替换

《scrapy爬取今日头条》

最后运行几次,有个别文章匹配方式跟这种有点不同,达不到通用,换方案!

这一段的正文,在浏览器上呈现,可以看到是一段html文字,所以想到转换,

《scrapy爬取今日头条》

etree呈现出来之后,我们可以提取出来,再次etree

《scrapy爬取今日头条》 解析

这种方式,目前运行正常

在这里只是提供一种方法,也许不是最好的,只要能达到目的就行!

也希望大家能有新的方法!

注:工作中的遇到的一些问题,可能我的方法不一定是最好的,大家一起相互交流+扣扣571848990

    原文作者:retime123
    原文地址: https://www.jianshu.com/p/e5733d85880f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞