基于Cox比例风险模型的失效时间预测

2024-05-15 01:19:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我是新堆栈溢出!如果这是一个愚蠢或令人困惑的问题,请提前道歉。在

我有一组右删失纵向数据(又名生存数据),其中包括工人的失败(辞职)时间、工作地点和月薪。我的目标是预测/模拟每个工人的失败时间。因此,考虑到在时间变化很小的情况下,风险率近似于失效的条件概率,我决定基于Cox比例风险模型来模拟每个工人的失效时间。以下是我的步骤:

  1. 我将原始数据集分成训练集和测试集。训练集用于训练Cox比例风险模型。在
  2. 根据估计的系数,我估计了累积基线危险函数,从而得到基线危险函数。在
  3. 我计算了每个时间段和工人的个人危险率(基于测试集)。我构建了一个矩阵(columns=simulateddays,row=worker)来存储所有的费率。在
  4. 我选择了两种方法来模拟/预测每个工人的失败时间:

4.1

我使用均匀分布来生成每个模拟日的随机概率,并且故障日是工人的第一个模拟日,其危险率大于生成的概率。我重复这个步骤n次迭代。但是,这个结果包含了大量的“nan”,因为一些工人没有任何比生成概率更大的危险率。因此,很难扼杀失败的时间。在

4.2

我简单地把个人危险率最高的模拟日视为每个工人的失败时间。然而,这种方法并不奏效,因为工人的个体危险率可能非常恒定且很小。在

我尝试过参数化模型,但计算时间过长,因为我的数据集非常大(超过80万行)

My question: is there any suggestion of simulating/predicting the failure time of each worker?

非常感谢!在

杰夫


Tags: of数据方法函数模型时间步骤概率

热门问题