从Pandas时间索引计算时间间隔时间差

4 投票
2 回答
7700 浏览
提问于 2025-04-18 13:17

我有一个 pandas 数据框,里面有一个日期时间索引。我想创建一个新列,用来显示经过的时间。我是这样计算的:

startTime = df.index[0]
elapsed = df.index - startTime

结果是:

TypeError                                 Traceback (most recent call last)
<ipython-input-56-279fd541b1e2> in <module>()
----> 1 df.index - startTime

C:\Python27\lib\site-packages\pandas\tseries\index.pyc in __sub__(self, other)
    612             return self.shift(-other)
    613         else:  # pragma: no cover
--> 614             raise TypeError(other)
    615 
    616     def _add_delta(self, delta):

TypeError: 2014-07-14 14:47:57

奇怪的是,比如说:

df.index[1] - startTime

返回的是:

datetime.timedelta(0, 1)

我想可能是因为这是一个日期时间索引,而不是普通的序列,所以才导致了这个问题。不过当我先用 df.index 创建一个新的序列,然后再尝试做减法时,我收到了很多警告,提示我在隐式转换两种不兼容的类型,并且将来这样做是行不通的:

timeStamps =pd.Series(data=df.index)
elapsed = timeStamps - timeStamps[0]

返回

C:\Python27\lib\site-packages\pandas\core\format.py:1851: DeprecationWarning:     Implicitly casting between incompatible kinds. In a future numpy release, this will raise an error. Use casting="unsafe" if this is intentional.
  elif format_short and x == 0:

虽然用后面的方法我确实得到了正确的时间差序列,但我不想依赖过时的代码。有没有什么“正确”的方法来计算经过的时间呢?

这是我从 csv 文件中获取数据的一部分:

Timestamp   Bubbler_Temperature_Setpoint
14-7-2014 14:47:57  13.000000
14-7-2014 14:47:58  13.000000
14-7-2014 14:47:59  13.000000
14-7-2014 14:48:00  13.000000
14-7-2014 14:48:01  13.000000
14-7-2014 14:48:02  13.000000
14-7-2014 14:48:03  13.000000
14-7-2014 14:48:04  13.000000
14-7-2014 14:48:05  13.000000

我用 'read_csv' 函数把它读入数据框:

df = pd.read_csv('test.csv',sep='\t',parse_dates='Timestamp',index_col='Timestamp')

我使用的是 pandas 版本 0.13.1

2 个回答

1

我刚刚把

elapsed = df.index - startTime

改成了

df['elapsed'] = df.index - startTime

这样就能得到时间变化的那一列。难道这不是你需要的吗?

1

你实际上是在做这个:

In [30]: ts = Series(13,date_range('20140714 14:47:57',periods=10,freq='s'))

In [31]: ts
Out[31]: 
2014-07-14 14:47:57    13
2014-07-14 14:47:58    13
2014-07-14 14:47:59    13
2014-07-14 14:48:00    13
2014-07-14 14:48:01    13
2014-07-14 14:48:02    13
2014-07-14 14:48:03    13
2014-07-14 14:48:04    13
2014-07-14 14:48:05    13
2014-07-14 14:48:06    13
Freq: S, dtype: int64

# iirc this is available in 0.13.1 (if not, use ``Series(ts.index)``
In [32]: x = ts.index.to_series()

In [33]: x-x.iloc[0]
Out[33]: 
2014-07-14 14:47:57   00:00:00
2014-07-14 14:47:58   00:00:01
2014-07-14 14:47:59   00:00:02
2014-07-14 14:48:00   00:00:03
2014-07-14 14:48:01   00:00:04
2014-07-14 14:48:02   00:00:05
2014-07-14 14:48:03   00:00:06
2014-07-14 14:48:04   00:00:07
2014-07-14 14:48:05   00:00:08
2014-07-14 14:48:06   00:00:09
Freq: S, dtype: timedelta64[ns]

在你的例子中,使用 df.index-df.index[0] 并不是在进行时间差计算,而是在进行集合操作。你可以在 这里 查看相关信息。

撰写回答