scrapy爬取今日头条

2019年6月11日 298次阅读来源: retime123

参考网站：http://blog.csdn.net/u011475134/article/details/70198533

《scrapy爬取今日头条》

参考网站：http://www.jianshu.com/p/5a93673ce1c0 这位大神写的很详细，不过现在api这个接口有点变化，多了一个参数

《scrapy爬取今日头条》

经过测试，这个参数可以固定！

start_urls=[

‘https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr’]

《scrapy爬取今日头条》请求头

加密算法和js http://www.cnblogs.com/xuchunlin/p/7097391.html 感谢！

加密的js没找到，直接用大神写的解密方式

《scrapy爬取今日头条》

《scrapy爬取今日头条》从redis获取数据重组

《scrapy爬取今日头条》 json数据
解析json数据

一开始使用的是，抽取”source_url”的数据，然后301重定向可以访问详细页，跑了几遍之后会有一些奇怪的url，最后发现这样的方式不行，然后重组url。

《scrapy爬取今日头条》获取下一部分

《scrapy爬取今日头条》下一部分，只使用10次

3.详细页解析

《scrapy爬取今日头条》不是我们熟悉的html呈现，而是js的形式

解析：正则！！====>解析正文部分。

《scrapy爬取今日头条》

可以看到有'<>’的html里面的大于小于号

一开始是，把这些符号用正则替换

《scrapy爬取今日头条》

最后运行几次，有个别文章匹配方式跟这种有点不同，达不到通用，换方案！

这一段的正文，在浏览器上呈现，可以看到是一段html文字，所以想到转换，

《scrapy爬取今日头条》

etree呈现出来之后，我们可以提取出来，再次etree

《scrapy爬取今日头条》解析

这种方式，目前运行正常

在这里只是提供一种方法，也许不是最好的，只要能达到目的就行！

也希望大家能有新的方法！

注：工作中的遇到的一些问题，可能我的方法不一定是最好的，大家一起相互交流+扣扣571848990

    原文作者：retime123
    原文地址: https://www.jianshu.com/p/e5733d85880f
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。