我试图为个人的工作安排寻找异常值(主要是高变化)。试图找出,如果有人来或离开的方式以外的个人(上午8:30至下午5点)或团体正常(上午7点至下午6点)。我试过用标准差,但问题是
- 它给了我平均值两边的异常值。如果有些人在工作时间迟到(比如上午10点)或者早退(比如下午4点)。你知道吗
- 另一个问题是中庸本身。如果在数据集的开始有一些极端情况,则需要大量观察才能将平均值降到最频繁的次数。例如,一组在下午3点、上午11点、上午10点、上午9点左右的时间很少,但大多数时间在早上6点左右,但平均值需要大量观察才能得到早上6点的平均值。我想到了加权平均数,但这意味着我必须将时间四舍五入到最接近的30分钟左右。但希望避免改变数据点。你知道吗
是否有任何已知的方法来发现工作日程中的异常值?我试图搜索,但我得到的只是时间序列中的异常值。但我在寻找时间本身的异常值。有什么建议吗?你知道吗
注意:我的数据集有PersonID和多次(刷卡)次/day/PersonID。我使用的是Python2.7。你知道吗
Tags:
如果我理解正确的话,你是在寻找那些与他们自己和整体的标准相比出发极早或到达极晚的人。你知道吗
另外,我建议把每天到达和离开的时间差作为一个单独的衡量标准。你知道吗
下面我有一个方向性的方法/建议来解决你的问题,python3(抱歉)。
它应该解决你提到的问题,但没有增加我认为你应该包括的每日工作时间。你知道吗
这是您可以预期的输出:
这是每日到达和离开时间分布:
代码如下:
相关问题 更多 >
编程相关推荐