正在尝试创建具有适当纳税年度的新列Tax_Year
,该列是通过检查date
列中的日期时间是否在单个txYear_
的元组元素的边界内形成的
salesReport = pd.DataFrame({'date': ['2017-07-02 09:00:00', '2017-07-03 15:00:00', '2018-04-05 15:00:00',
'2018-12-20 11:00:00', '2019-01-06 14:00:00', '2020-09-06 17:00:00'],
'sales': [100, 339, 98, 1020, 630, 765]})
txYear_0304 = (dt.datetime(2003, 4, 6), dt.datetime(2004, 4, 5))
txYear_0405 = (dt.datetime(2004, 4, 6), dt.datetime(2005, 4, 5))
txYear_0506 = (dt.datetime(2005, 4, 6), dt.datetime(2006, 4, 5))
txYear_0607 = (dt.datetime(2006, 4, 6), dt.datetime(2007, 4, 5))
txYear_0708 = (dt.datetime(2007, 4, 6), dt.datetime(2008, 4, 5))
txYear_0809 = (dt.datetime(2008, 4, 6), dt.datetime(2009, 4, 5))
txYear_0910 = (dt.datetime(2009, 4, 6), dt.datetime(2010, 4, 5))
txYear_1011 = (dt.datetime(2010, 4, 6), dt.datetime(2011, 4, 5))
txYear_1112 = (dt.datetime(2011, 4, 6), dt.datetime(2012, 4, 5))
txYear_1213 = (dt.datetime(2012, 4, 6), dt.datetime(2013, 4, 5))
txYear_1314 = (dt.datetime(2013, 4, 6), dt.datetime(2014, 4, 5))
txYear_1415 = (dt.datetime(2014, 4, 6), dt.datetime(2015, 4, 5))
txYear_1516 = (dt.datetime(2015, 4, 6), dt.datetime(2016, 4, 5))
txYear_1617 = (dt.datetime(2016, 4, 6), dt.datetime(2017, 4, 5))
txYear_1718 = (dt.datetime(2017, 4, 6), dt.datetime(2018, 4, 5))
txYear_1819 = (dt.datetime(2018, 4, 6), dt.datetime(2019, 4, 5))
txYear_1920 = (dt.datetime(2019, 4, 6), dt.datetime(2020, 4, 5))
txYear_2021 = (dt.datetime(2020, 4, 6), dt.datetime(2021, 4, 5))
tax_year = [txYear_0304, txYear_0405, txYear_0506, txYear_0607, txYear_0708, txYear_0809, txYear_0910, txYear_1011, txYear_1112,
txYear_1213, txYear_1314, txYear_1415, txYear_1516, txYear_1617, txYear_1718, txYear_1819, txYear_1920, txYear_2021]
当满足此条件时,我希望变量名出现在新列的相应行中
例如
date sales Tax_Year
0 2017-07-02 09:00:00 100 txYear_1617
1 2017-07-03 15:00:00 339 txYear_1617
2 2018-04-05 15:00:00 98 txYear_1718
3 2018-12-20 11:00:00 1020 txYear_1819
4 2019-01-06 14:00:00 630 txYear_1819
5 2020-09-06 17:00:00 765 txYear_2021
我用np.where
解决了这个问题
salesReport['Tax_Year'] = np.where(tax_year[0] <= salesReport['date'] and tax_year[1] >= salesReport['date'], tax_year, np.nan)
然而,我无法解决我收到的错误
TypeError: '>=' not supported between instances of 'str' and 'tuple'
此外,我也不确定如何获取变量名,因为目前我将返回实际的元组内容,这不是我想要的
免责声明:
我不擅长熊猫。如果有更好的方法,我不会感到惊讶
我已将元组的
tax_years
列表转换为字典,并定义了一个独立函数来获取给定datetime对象的纳税年度。实际上,我并不是100%地确定纳税年度结束/开始的时间,因此比较仅在MM-DD-YY上进行,并从数据帧中存在的时间戳中删除时间以及输出:
相关问题 更多 >
编程相关推荐