具有不同偏移量向量的Pandas矢量化日期偏移量操作

import pandas as pd df=pd.DataFrame([[2017,1,15,1], [2017,1,15,2], [2017,1,15,3], [2017,1,15,4], [2017,1,15,5], [2017,1,15,6], [2017,1,15,7]], columns=['year','month','day','month_offset']) df['date']=df.apply(lambda g: pd.datetime(g.year,g.month,g.day),axis=1) df['offset']=df.apply(lambda g: pd.offsets.MonthEnd(g.month_offset),axis=1) df['date_offset']=df.date+df.offset

编辑

最后，比较@john zwinck的以下方法：

结果是：

index year month day month_offset mydate offset1 final 0 2017 1 1 1 2017-01-01 2017-01-31 2017-01-31 1 2017 1 1 2 2017-01-01 2017-02-28 2017-02-28 2 2017 1 1 3 2017-01-01 2017-03-31 2017-03-31 3 2017 1 1 4 2017-01-01 2017-04-30 2017-04-30 4 2017 1 1 5 2017-01-01 2017-05-31 2017-05-31 5 2017 1 1 6 2017-01-01 2017-06-30 2017-06-30 6 2017 1 1 7 2017-01-01 2017-07-31 2017-07-31 runfile('C:/bitbucket/test/vector_dates.py', wdir='C:/bitbucket/test') Method 1 0.003999948501586914 seconds Method 2 with numpy vectorization 0.0009999275207519531 seconds

很明显，numpy要快得多

2条回答

网友

1楼 · 编辑于 2024-05-26 19:54:24

一种真正的矢量化方法是从month_offset构造一个numpy.timedelta64数组，将其添加到日期数组中，然后减去numpy.timedelta64(1, 'D')返回上个月的最后一天。在

使用apply(lambda)的解决方案可能要慢得多。正如警告所说，有些大熊猫的日期偏移操作没有矢量化。如果你的数据很大，最好避免它们。NumPy工具，如busday_offset()和{}完全可以执行。在

网友

2楼 · 编辑于 2024-05-26 19:54:24

考虑以下方法：

In [94]: df['date'] = pd.to_datetime(df[['year','month','day']])

In [95]: df['date_offset'] = df.apply(lambda x: x['date'] + pd.offsets.MonthEnd(x['month_offset']), axis=1)

In [96]: df
Out[96]:
   year  month  day  month_offset       date date_offset
0  2017      1   15             1 2017-01-15  2017-01-31
1  2017      1   15             2 2017-01-15  2017-02-28
2  2017      1   15             3 2017-01-15  2017-03-31
3  2017      1   15             4 2017-01-15  2017-04-30
4  2017      1   15             5 2017-01-15  2017-05-31
5  2017      1   15             6 2017-01-15  2017-06-30
6  2017      1   15             7 2017-01-15  2017-07-31

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章