将日期向量转换为范围的Pythonic方法？

import pandas as pd t = True f = False df = pd.DataFrame( {'indic': [f, f, t, t, t, f, f, f, t, f, f, t, t, t, t]}, index=pd.date_range("2018-01-01", "2018-01-15") ) print(df) indic 2018-01-01 False 2018-01-02 False 2018-01-03 True 2018-01-04 True 2018-01-05 True 2018-01-06 False 2018-01-07 False 2018-01-08 False 2018-01-09 True 2018-01-10 False 2018-01-11 False 2018-01-12 True 2018-01-13 True 2018-01-14 True 2018-01-15 True

desired_result = pd.DataFrame({ 'from': ["2018-01-03", "2018-01-09", "2018-01-12"], 'to': ["2018-01-05", "2018-01-09", "2018-01-15"] }) print(desired_result) from to 0 2018-01-03 2018-01-05 1 2018-01-09 2018-01-09 2 2018-01-12 2018-01-15

df = pd.DataFrame( { 'indic_A': [f, f, t, t, t, f, f, f, t, f, f, t, t, t, t], 'indic_B': [f, f, f, f, f, f, f, f, t, t, t, t, t, f, f] }, index=pd.date_range("2018-01-01", "2018-01-15") ) desired_result = pd.DataFrame({ 'from': ["2018-01-03", "2018-01-09", "2018-01-12", "2018-01-09"], 'to': ["2018-01-05", "2018-01-09", "2018-01-15", "2018-01-13"], 'what': ["indic_A", "indic_A", "indic_A", "indic_B"] }) print(desired_result) from to what 0 2018-01-03 2018-01-05 indic_A 1 2018-01-09 2018-01-09 indic_A 2 2018-01-12 2018-01-15 indic_A 3 2018-01-09 2018-01-13 indic_B

2条回答

网友

1楼 · 编辑于 2024-04-19 20:40:15

首先使用^{}进行重塑，然后按^{}为唯一组创建辅助列，按^{}仅过滤True，并按函数^{}和^{}聚合^{}：

df = df.rename_axis('date').reset_index().melt('date', var_name='ind', value_name='boolean')
df['new'] = (~df['boolean']).cumsum()
df = (df[df['boolean']]
         .groupby('new')
         .agg({'date':['first','last'], 'ind':'first'})
         .reset_index(drop=True))
df.columns = df.columns.map('_'.join)
print (df)
  date_first  date_last ind_first
0 2018-01-03 2018-01-05   indic_A
1 2018-01-09 2018-01-09   indic_A
2 2018-01-12 2018-01-15   indic_A
3 2018-01-09 2018-01-13   indic_B

网友

2楼 · 编辑于 2024-04-19 20:40:15

你可以试试pd.DataFrame.shift

先做两列新的上下移动

df['down_shift'] = df['indic'].shift()
df['up_shift'] = df['indic'].shift(-1)

而df将是

            indic down_shift up_shift
2018-01-01  False        NaN    False
2018-01-02  False      False     True
2018-01-03   True      False     True
2018-01-04   True       True     True
2018-01-05   True       True    False
2018-01-06  False       True    False
2018-01-07  False      False    False
2018-01-08  False      False     True
2018-01-09   True      False    False
2018-01-10  False       True    False
2018-01-11  False      False     True
2018-01-12   True      False     True
2018-01-13   True       True     True
2018-01-14   True       True     True
2018-01-15   True       True      NaN

这里的想法是

情况1：（indic，down\u shift）=（True，False）-开始
情形2：（indic，up\u shift）=（True，False）-结束
案例3：案例1和案例2都发生-开始和结束

所以我们使用这个技巧

真-假=1
假-真=-1
真-真=0
假-假=0

代码：

case_start = df['indic'] - df['down_shift']
case_end = df['indic'] - df['up_shift']

start_date_list = df[case_start == 1].index
end_date_list = df[case_end == 1].index

然后我们检查start_date_list

DatetimeIndex(['2018-01-03', '2018-01-09', '2018-01-12'], dtype='datetime64[ns]', freq=None)

然后我们检查end_date_list

DatetimeIndex(['2018-01-05', '2018-01-09'], dtype='datetime64[ns]', freq='4D')

最后一个日期不会从True变为False，因此我们需要手动添加它。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章