python – 熊猫滚动总和与不均匀间隔索引

2023年4月27日 155次阅读

我有一个数据框,其中包含不同产品的每周销售额(a,b,c).如果某一周(例如第4周)的销售额为零,则该周没有记录：

In[1]
df = pd.DataFrame({'product': list('aaaabbbbcccc'),
               'week': [1, 2, 3, 5, 1, 2, 3, 5, 1, 2, 3, 4],
               'sales': np.power(2, range(12))})
Out[1]
   product  sales  week
0        a      1     1
1        a      2     2
2        a      4     3
3        a      8     5
4        b     16     1
5        b     32     2
6        b     64     3
7        b    128     5
8        c    256     1
9        c    512     2
10       c   1024     3
11       c   2048     4

我想创建一个新列,其中包含前n周的累计销售额,按产品分组.例如.对于n = 2,它应该像last_2_weeks：

   product  sales  week  last_2_weeks
0        a      1     1             0
1        a      2     2             1
2        a      4     3             3
3        a      8     5             4
4        b     16     1             0
5        b     32     2            16
6        b     64     3            48
7        b    128     5            64
8        c    256     1             0
9        c    512     2           256
10       c   1024     3           768
11       c   2048     4          1536

如果每周都有记录,我可以使用此question中描述的rolling_sum.

有没有办法将’week’设置为索引,只计算该索引的总和？或者我可以重新采样’周’并将所有缺失行的销售额设置为零？

最佳答案重新采样仅对DatetimeIndex,TimedeltaIndex或PeriodIndex有效.

但是整数可以使用reindex.

首先将列周设置为索引.然后,df按列产品分组,并按每组索引的最大值应用reindex.缺少的值由0填充.

import pandas as pd
import numpy as np

df = pd.DataFrame({'product': list('aaaabbbbcccc'),
               'week': [1, 2, 3, 5, 1, 2, 3, 5, 1, 2, 3, 4],
               'sales': np.power(2, range(12))})

df = df.set_index('week')   

def reindex_by_max_index_of_group(df):
    index = range(1, max(df.index) + 1)
    return df.reindex(index, fill_value=0)

df = df.groupby('product').apply(reindex_by_max_index_of_group)

df.drop(['product'], inplace=True, axis=1)
print df.reset_index()

#   product  week  sales
#0        a     1      1
#1        a     2      2
#2        a     3      4
#3        a     4      0
#4        a     5      8
#5        b     1     16
#6        b     2     32
#7        b     3     64
#8        b     4      0
#9        b     5    128
#10       c     1    256
#11       c     2    512
#12       c     3   1024
#13       c     4   2048