爬取微博评论后按日期统计评论数

正常爬取得到的微博评论时间格式如下所示:

《爬取微博评论后按日期统计评论数》

为了方便统计,首先通过时间转换函数对时间进行操作,并将转换后的时间设为新的一列属性,命名为comment_time。时间转换函数如下所示:

    def change(self,dd):
        GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
        timeArray = datetime.datetime.strptime(dd, GMT_FORMAT)
        aa = timeArray.strftime("%Y-%m-%d %H:%M:%S")
        判断时间 = timeArray.strftime("%Y%m%d")
        return 判断时间

效果如下:

《爬取微博评论后按日期统计评论数》

然后对获得的csv文件根据comment_time属性进行统计,并生成新的csv文件用于保存该数据,代码如下所示:

 #按评论日期统计评论数
    def process(self):
        #path后所示的路径即为你想要打开的保存有微博评论数据的文件路径
        path = "D:/"+self.params['id']+".csv"
        #names后跟的两个键分别是我的表中倒数第二个属性和倒数第一个属性
        df = pd.read_csv(path, header=0, names=['child_comment_num', 'comment_time'])
        #根据comment_time属性来进行分类并计数
        df_ = df.groupby(["comment_time"]).count().reset_index()
        #将统计得到的数据保存至你想要的路径
        df_.to_csv("D:/"+self.params['id']+"_pro.csv", header=False, index=False)

经过以上操作后,获得一个按照评论时间统计的csv文件:

《爬取微博评论后按日期统计评论数》

爬取微博评论的代码来源:Python3Spiders/WeiboSuperSpider: 最强微博爬虫,用户、话题、评论一网打尽。图片下载、情感分析,地理位置、关系网络等功能应有尽有。Docs:https://buyixiao.github.io/blog/weibo-super-spider.html

 微博时间转换:微博时间格式转换_huanghong6956的博客-CSDN博客

    原文作者:T.Rayin
    原文地址: https://blog.csdn.net/dicha9/article/details/123045278
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞