与大Pandas的时间序列相关性

date value date 2017-11-30 00:00:00 30/11/17 0.00 49 2017-11-30 00:02:00 30/11/17 0.02 51 2017-11-30 00:03:00 30/11/17 0.03 54 2017-11-30 00:05:00 30/11/17 0.05 57 2017-11-30 00:07:00 30/11/17 0.07 53 2017-11-30 00:08:00 30/11/17 0.08 55 2017-11-30 00:10:00 30/11/17 0.10 55 2017-11-30 00:12:00 30/11/17 0.12 58 2017-11-30 00:13:00 30/11/17 0.13 57 2017-11-30 00:15:00 30/11/17 0.15 58 .... 2018-02-06 09:30:00 6/2/18 9.30 33 2018-02-06 09:32:00 6/2/18 9.32 31 2018-02-06 09:33:00 6/2/18 9.33 34 2018-02-06 09:35:00 6/2/18 9.35 32 2018-02-06 09:37:00 6/2/18 9.37 33 2018-02-06 09:38:00 6/2/18 9.38 30

01-01-2018 (df01 - I removed data column) 2018-01-01 09:05:00 11 2018-01-01 09:07:00 11 2018-01-01 09:09:00 10 .... 02-01-2018 (df02) 2018-02-01 09:05:00 67 2018-02-01 09:07:00 68 2018-02-01 09:08:00 67 ....

Sensor A: date value date 2017-11-30 00:00:00 30/11/17 0.00 49 2017-11-30 00:02:00 30/11/17 0.02 51 2017-11-30 00:03:00 30/11/17 0.03 54 2017-11-30 00:05:00 30/11/17 0.05 57 Sensor B: date value date 2017-11-30 00:00:00 30/11/17 0.00 1 2017-11-30 00:02:00 30/11/17 0.02 40 2017-11-30 00:04:00 30/11/17 0.03 11 2017-11-30 00:05:00 30/11/17 0.05 57 AxB date valueA valueB date 2017-11-30 00:00:00 30/11/17 0.00 49 1 2017-11-30 00:02:00 30/11/17 0.02 51 40 2017-11-30 00:03:00 30/11/17 0.03 54 11 2017-11-30 00:05:00 30/11/17 0.05 57 57

1条回答

网友

1楼 · 发布于 2024-05-15 16:32:14

我会试着把你们的两个问题放在一起。这看起来像是^{}的一个作业，它在最近的匹配键上合并，而不是只在精确的键上合并。在

示例数据

df1
date            value
30/11/17 0.00   51
30/11/17 0.02   53
30/11/17 0.05   65
30/11/17 0.08   58

df2
date            value
30/11/17 0.01   61
30/11/17 0.02   63
30/11/17 0.04   65
30/11/17 0.07   68

预处理

^{pr2}$

在最近的索引匹配上合并数据帧

merged = pd.merge_asof(df1, df2, left_index=True, right_index=True, direction='nearest')
merged
                         value_x  value_y
date
2017-11-30 00:00:00       51       61
2017-11-30 00:02:00       53       63
2017-11-30 00:05:00       65       65
2017-11-30 00:08:00       58       68

注释

上面的pd.merge_asof的用法保留了df1的索引；df1中的每一行在{}，中接收最接近的匹配，并且替换为，因此，如果df2的行数少于df1，则{}的结果将包含来自{}的重复值。结果的行数与df1相同。在

您提到，实际上只关心按相对位置比较行，例如，比较df1的第三个值与{}的第三个值。不使用merge_asof，您可以在使用时间索引获取感兴趣的时间段后忽略它，并使用df.values访问底层numpy数组：

# Get a 2D array of shape (4, 1)
df1.values
array([[51],
       [53],
       [65],
       [58]])

# Get a 1D array of shape (4,)
df1.values.flatten()
array([51, 53, 65, 58])

# numpy correlation matrix
pd.np.corrcoef(df1.values.flatten(), df2.values.flatten())
array([[1.        , 0.61287265],
       [0.61287265, 1.        ]])

示例数据

预处理

在最近的索引匹配上合并数据帧

相关性

注释

相关问题更多 >

编程相关推荐

热门问题

热门文章