正常爬取得到的微博评论时间格式如下所示:
为了方便统计,首先通过时间转换函数对时间进行操作,并将转换后的时间设为新的一列属性,命名为comment_time。时间转换函数如下所示:
def change(self,dd):
GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
timeArray = datetime.datetime.strptime(dd, GMT_FORMAT)
aa = timeArray.strftime("%Y-%m-%d %H:%M:%S")
判断时间 = timeArray.strftime("%Y%m%d")
return 判断时间
效果如下:
然后对获得的csv文件根据comment_time属性进行统计,并生成新的csv文件用于保存该数据,代码如下所示:
#按评论日期统计评论数
def process(self):
#path后所示的路径即为你想要打开的保存有微博评论数据的文件路径
path = "D:/"+self.params['id']+".csv"
#names后跟的两个键分别是我的表中倒数第二个属性和倒数第一个属性
df = pd.read_csv(path, header=0, names=['child_comment_num', 'comment_time'])
#根据comment_time属性来进行分类并计数
df_ = df.groupby(["comment_time"]).count().reset_index()
#将统计得到的数据保存至你想要的路径
df_.to_csv("D:/"+self.params['id']+"_pro.csv", header=False, index=False)
经过以上操作后,获得一个按照评论时间统计的csv文件: