我试图建立一个信用违约预测模型。 我有一个超过20000名客户的数据集,其特点是他们过去几年的付款≤24个月
数据集如下所示:
Month_1. Month_2. Month_3. .... Month_n.
Customer_1. 10 5 0 4
Customer_2. 6 20 10 4
Customer_3. 8 40 NaN NaN
...
Customer_m. 14 100 12 8
我的问题是这是否是一个时间序列问题,以及如何使用机器学习策略来解决它
一些挑战包括:
时间序列在客户之间不同步,即客户之间的月份不相同,即客户的月份可以是2月,客户的月份可以是4月
跨客户的时间序列可以具有不同的长度(例如,客户1可能有18个月的数据,客户2可能有3个月的数据
如何解释可能完全不相关的时间序列中的趋势和季节性(即客户1的行为独立于客户2的行为,因此趋势可能非常不同)
到目前为止,我一直在为每个客户的付款创建汇总统计数据,因此将数据集转换为:
mean. std. pct_change.
Customer_1. 20 3.4 0.5
Customer_2. 10 3.0 0.01
...
Customer_m. 30 1.5 0.2
然后我考虑应用异常检测算法(例如隔离林)对违约者/非违约者进行分类
这是一种正确的方法,还是应该考虑每个客户时间序列中的季节性因素
如果应该考虑每个客户的时间序列,如何在整个数据集中系统地进行
如果有人能给我一些关于如何进行的提示,我将不胜感激。非常感谢
目前没有回答
相关问题 更多 >
编程相关推荐