填补Pandas数据框架中的数据空白

2024-04-25 04:18:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我有Pandas数据框(从.csv加载),以日期时间为索引。。每天必须有一个入口。 问题是我有差距,也就是说,有些日子我根本没有数据。 在空白处插入行(天)的最简单方法是什么?还有一种方法可以控制作为数据插入列中的内容!说0或复制上一天的信息,或填充从上一天到下一天数据值范围内的滑动递增/递减值。

谢谢

以下是缺少示例01-03和01-04:

In [60]: df['2015-01-06':'2015-01-01']
Out[60]: 
           Rate  High (est)  Low (est)
Date                                      
2015-01-06  1.19643      0.0000     0.0000
2015-01-05  1.20368      1.2186     1.1889
2015-01-02  1.21163      1.2254     1.1980
2015-01-01  1.21469      1.2282     1.2014

仍在试验,但这似乎解决了问题:

df.set_index(pd.DatetimeIndex(df.Date),inplace=True)

然后重新取样。。。原因是导入标题为col name Date的.csv并不是实际创建日期时间索引,而是冻结列表。 resample()应为:如果isinstance(ax,DatetimeIndex):。。。。。


以下是我的最终解决方案:

  #make dates the index
  self.df.set_index(pd.DatetimeIndex(self.df.Date), inplace=True)
  #fill the gaps
  self.df = self.df.resample('D',fill_method='pad')
  #fix the Date column
  self.df.Date = self.df.index.values

我不得不修改日期列,因为resample()只允许您填充它。 但它正确地修复了索引,所以我可以使用它修复日期列。

修正后的数据截图如下:

2015-01-29 2015-01-29  1.13262      0.0000     0.0000
2015-01-30 2015-01-30  1.13161      1.1450     1.1184
2015-01-31 2015-01-31  1.13161      1.1450     1.1184
2015-02-01 2015-02-01  1.13161      1.1450     1.1184

01-30、01-31是新生成的数据。


Tags: csvthe数据方法selfdfdateindex