python – 从DataFrame列构造Series时丢失值

2023年5月5日 219次阅读

我有一个由以下列组成的DataFrame td：

In [111]: td.head(5)
Out[111]:
         Date      Time    Price
0  2015-09-21  00:01:26  4303.00
1  2015-09-21  00:01:33  4303.00
2  2015-09-21  00:02:21  4303.50
3  2015-09-21  00:02:21  4303.50
4  2015-09-21  00:02:31  4303.25

我的目标是拥有一个具有日期时间和价格的系列.

我试过了：

s = pd.Series(td['Price'], index=pd.to_datetime(td['Date'] + ' ' + td['Time']))

但得到结果：

>>> s
2015-09-21 00:01:26   NaN
2015-09-21 00:01:33   NaN
2015-09-21 00:02:21   NaN
2015-09-21 00:02:21   NaN
                       ..
2015-09-25 16:59:58   NaN
2015-09-25 16:59:58   NaN
2015-09-25 16:59:58   NaN
2015-09-25 16:59:59   NaN
Name: Price, dtype: float64

“价格”中的所有值均为NaN.什么提示我做错了什么？

最佳答案从DataFrame列创建Series并传入索引时,将根据新索引重新编制列.

在您的情况下,新创建的Datetime索引中的所有标签最初都不用于索引列td [‘Price’],因此会返回一系列缺失(NaN)值.

最简单的解决方案是传入td [‘Price’].值而不是：

>>> pd.Series(td['Price'].values, index=pd.to_datetime(td['Date']+' '+td['Time'])
2015-09-21 00:01:26    4303.00
2015-09-21 00:01:33    4303.00
2015-09-21 00:02:21    4303.50
2015-09-21 00:02:21    4303.50
2015-09-21 00:02:31    4303.25
...

使用td [‘Price’].值意味着列中的值位于NumPy数组中：这没有索引,并且pandas不会尝试重新索引值.