Pandas dataframe数据处理方法速度比较

数据修改主要以增删改差为主,这里比较几种写法在数据处理时间上的巨大差别。

数据量大概是500万行级别的数据,文件大小为100M。

1.iloc

iloc是一种速度极其慢的写法。这里我们对每个csv文件中的每一行循环再用iloc处理,示例代码如下:

for index in range(len(df)):

      df.iloc[‘attr’][index] = xxx

使用这种方法对五百万行的数据进行处理大概需要5个小时,实在是很慢。

2.at

at相比于iloc有了很大的性能提升,也是for循环处理,示例代码如下:

for i in range(len(df)):
    if df.at[i,'attr'] > 0:
       sum_positive += df.at[i,'attr']
    else:
        sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的,用at,程序的速度会有大幅提高,大概10分钟,但是还不够。

3.apply

想说apply是因为我觉得for循环速度太慢,想在循环上对程序进行优化。然后网上有人说apply可以大幅度提升速度,然而经过测试发现在我的程序里,使用apply和for差不多吧,性能也一般。

4.直接用series处理

这才是真正优化for循环的方法,以上面at的程序为例,可以改写为:

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()

将程序都改为series处理,快了很多,最后500万行的数据大概需要37秒能跑完,基本符合预期。

这里提两句关于dataframe属性筛选,也就是上面df.attr > 0这一部分。首先pandas这个属性筛选实在是很强大,很方便。

其次是我们属性筛选的时候不要去修改属性,而是修改后面的数字,比如,我们不要这样写:

float(df.attr )> 0,而是这样写:

df.attr > str(0),因为df.attr作为属性是不能随便动的。

 

    原文作者:蚁群算法
    原文地址: https://blog.csdn.net/weixin_37426504/article/details/81669829
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞