每年使用Python/Pandas匹配样本对

SampleLocation CalciumConc_mgL SampleDate 10/1/1947 0:00 USGS-09382000 66.0 10/15/1947 0:00 USGS-09382000 132.0 1/1/1948 0:00 USGS-09382000 130.0 1/15/1948 0:00 USGS-09382000 98.0 5/1/1948 0:00 USGS-09382000 82.0 5/15/1948 0:00 USGS-09382000 53.0 6/1/1948 0:00 USGS-09382000 142.0 9/1/1948 0:00 USGS-09382000 107.0 9/15/1948 0:00 USGS-09382000 59.0 10/1/1948 0:00 USGS-09382000 106.0 10/15/1948 0:00 USGS-09382000 102.0 5/15/1949 0:00 USGS-09382000 59.0 6/1/1949 0:00 USGS-09382000 50.0 6/15/1949 0:00 USGS-09382000 161.0 9/1/1949 0:00 USGS-09382000 82.0 9/15/1949 0:00 USGS-09382000 376.0 10/1/1949 0:00 USGS-09382000 210.0 10/15/1949 0:00 USGS-09382000 131.0 1/1/1950 0:00 USGS-09382000 132.0 ... ... ... 9/20/1947 0:00 USGS-09288500 59.0 9/20/1947 0:00 USGS-09288500 59.0 6/9/1948 0:00 USGS-09288500 51.0 6/9/1948 0:00 USGS-09288500 51.0 9/29/1948 0:00 USGS-09288500 51.0 9/29/1948 0:00 USGS-09288500 51.0 9/10/1949 0:00 USGS-09288500 40.0 5/19/1941 0:00 USGS-09295000 33.0 6/16/1941 0:00 USGS-09295000 3.4 5/11/1947 0:00 USGS-09295000 42.0 6/22/1947 0:00 USGS-09295000 32.0 9/20/1947 0:00 USGS-09295000 97.0 6/9/1948 0:00 USGS-09295000 37.0 9/29/1948 0:00 USGS-09295000 126.0 9/10/1949 0:00 USGS-09295000 93.0 [429 rows x 2 columns]

1条回答

网友

1楼 · 发布于 2024-06-08 14:23:09

这个方法有点混乱，但我正在尝试使它更健壮，以解释丢失的数据。在

首先，我们将删除数据中的重复项，然后将日期转换为熊猫时间戳：

df = df.drop_duplicates()
df.SampleDate = [pd.Timestamp(ts) for ts in df.SampleDate]

然后，让我们对DataFrame进行排列，使其在一组唯一的日期上建立索引（列将是位置id）：

^{pr2}$

我已经将值填充到前面，以使结果更可靠。您可能需要限制可能提前填充的天数（例如.ffill（limit=30））。在

现在我们可以将此数据帧移动365个日期：

df2_lagged = df2.shift(365)

将df2和df2\u lagged的样本位置叠加：

df2 = pd.DataFrame(df2.stack('SampleLocation', dropna=False))
df2_lagged = df2_lagged.stack('SampleLocation', dropna=False)

现在将滞后数据合并到df2。数据帧具有完全相同的结构，因此您只需复制值：

df2['lagged_val'] = df2_lagged

最后，交换位置和日期并重命名列：

result = df2.swaplevel(0, 1)
result.columns = ['CalciumConc_mgL', 'CalciumConc_mgL_lagged_12m']

将60天的延迟用于示例数据：

>>> result
result.tail(10)
                                 CalciumConc_mgL  CalciumConc_mgL_lagged_12m
SampleLocation       SampleDate                                             
USGS-421548113205301 1950-01-01               59                          59
USGS-422818113225801 1950-01-01               59                         NaN
USGS-423200113472601 1950-01-01               33                          33
USGS-424006113355301 1950-01-01               62                          54
USGS-424142113340901 1950-01-01               54                          54
USGS-424348113242701 1950-01-01               40                         NaN
USGS-424431113412301 1950-01-01               46                         NaN
USGS-424511113291401 1950-01-01               38                          38
USGS-424518113282002 1950-01-01               39                          39
USGS-424659113433701 1950-01-01               39                          39

仅在位置ID上建立索引：

result = result.reset_index().set_index('SampleLocation')

>>> result.loc['USGS-09402500', :]
        CalciumConc_mgL  CalciumConc_mgL_lagged_12m
SampleDate                                             
1941-05-18              NaN                         NaN
1941-05-19              NaN                         NaN
1941-06-16              NaN                         NaN
1941-10-01              102                         NaN
1941-10-12              132                         NaN
1941-10-21              119                         NaN
1943-09-18              110                         NaN
1943-10-01              138                         NaN
1943-10-11              140                         NaN
1943-10-12              140                         NaN
1943-10-14              140                         NaN
1943-10-21              156                         NaN
1944-01-01              116                         NaN
1944-01-11              126                         NaN
1944-01-13              126                         NaN
1944-01-21              133                         NaN
1944-05-01               84                         NaN
1944-05-11               84                         NaN
1944-05-13               66                         NaN
1944-05-15               66                         NaN
1944-05-16               66                         NaN
1944-05-21               57                         NaN
1944-05-22               57                         NaN
1944-06-01               58                         NaN
1944-06-11               57                         NaN
1944-06-21               57                         NaN
1944-09-01              134                         NaN
1944-09-11              122                         NaN
1944-09-15              122                         NaN
1944-09-18              122                         NaN
...                     ...                         ...
1949-05-03               63                          62
1949-05-11               63                          62
1949-05-15               63                          62
1949-05-21               57                          62
1949-06-01               58                         133
1949-06-09               58                         128
1949-06-10               58                         128
1949-06-11               74                         128
1949-06-12               74                         128
1949-06-13               74                         124
1949-06-15               74                         112
1949-06-21               67                         123
1949-06-23               67                         123
1949-06-30               67                         123
1949-09-01              142                         123
1949-09-09              142                         123
1949-09-10              142                         131
1949-09-11              140                         106
1949-09-15              140                         108
1949-09-21              146                         108
1949-09-28              146                         102
1949-10-01              156                         102
1949-10-11              153                         102
1949-10-13              153                          68
1949-10-14              153                          68
1949-10-15              153                          63
1949-10-21              152                          63
1949-10-27              152                          63
1949-10-28              152                          63
1950-01-01              128                          60

相关问题更多 >

编程相关推荐

热门问题

热门文章