获取时间戳最接近给定日期时间的行的有效方法

timestamp | values | lag 2019-08-01 14:53:01 | 20.0 | Nan 2019-08-01 14:53:55 | 29.0 | Nan 2019-08-01 14:53:58 | 22.4 | Nan ... 2019-08-02 14:53:25 | 27.9 | 20.0

2条回答

网友

1楼 · 编辑于 2024-04-19 05:17:13

假设您的日期已排序，快速执行此操作的一种方法是使用^{}在O[N log N]时间内查找所有匹配的日期

创建一些测试数据时，可能会出现如下情况：

import numpy as np
import pandas as pd
np.random.seed(0)

df = pd.DataFrame(
  {'values': np.random.rand(10)},
  index=sorted(np.random.choice(pd.date_range('2019-08-01', freq='T', periods=10000), 10, replace=False))
)

def add_lag(df):
  ind = df.index.searchsorted(df.index - pd.DateOffset(1))
  out_of_range = (ind <= 0) | (ind >= df.shape[0])
  ind[out_of_range] = 0
  lag = df['values'].values[ind]
  lag[out_of_range] = np.nan
  df['lag'] = lag
  return df

add_lag(df)

                       values       lag
2019-08-01 06:17:00  0.548814       NaN
2019-08-01 10:51:00  0.715189       NaN
2019-08-01 13:56:00  0.602763       NaN
2019-08-02 09:50:00  0.544883  0.715189
2019-08-03 14:06:00  0.423655  0.423655
2019-08-04 03:00:00  0.645894  0.423655
2019-08-05 07:40:00  0.437587  0.437587
2019-08-07 00:41:00  0.891773  0.891773
2019-08-07 07:05:00  0.963663  0.891773
2019-08-07 15:55:00  0.383442  0.891773

使用这种方法，可以在数十毫秒内计算出具有100万行的数据帧：

df = pd.DataFrame(
  {'values': np.random.rand(1000000)},
  index=sorted(np.random.choice(pd.date_range('2019-08-01', freq='T', periods=10000000), 1000000, replace=False))
)

%timeit add_lag(df)
# 10 loops, best of 3: 71.5 ms per loop

然而，请注意，这并没有找到最接近一天的值，而是在一天的滞后之后找到最接近的。如果希望在两个方向上获得最接近的值，则需要修改此方法

网友
2楼 · 编辑于 2024-04-19 05:17:13

嗯，不确定这是否会更有效，但是merge_asof是一种值得研究的方法，因为它不需要udf
df['date'] = df.timestamp.dt.date df2 = df.copy() df2['date'] = df2['date'] + pd.to_timedelta(1,unit ='D') df2['timestamp'] = df2['timestamp'] + pd.to_timedelta(1,unit ='D') pd.merge_asof(df,df2, on = 'timestamp', by = 'date', direction = 'nearest')
该方法实质上是将前一天的值合并到第二天，然后匹配到最近的时间戳

相关问题更多 >

编程相关推荐

热门问题

热门文章