为具有对应前索引/相同跟踪的案例设置唯一标识符

Question

假设我有以下的数据集：

个人编号	类别	年份	月份	索引_ID	前一个索引_ID
1	100	2022	8	42100
1	100	2022	9	9534	42100
1	9400	2023	9	4
1	9400	2023	10	485	4
2	100	2022	1	214	102
2	100	2022	2	194231	214
3	200	2022	2	2111
3	200	2022	3	1012	2111
3	200	2022	4	9876	1012
3	200	2022	5	8794	9876
3	200	2022	6	24142	8794
4	100	2022	4	42100
4	200	2022	7	12
4	200	2022	8	14	12
4	200	2022	9	485	14

第一列（个人编号）是一个数字，用来标识一个人。还有一列（类别）表示类别。接下来是年份和月份（年份 月份）。还有一个索引列（索引_ID），最重要的是一个列，说明一个参考，即某个案例可能关联的前一个索引（前一个索引_ID）。所以，让我们把它说得更简单易懂：

第一个案例属于个人1，类别是100。我们有两个条目属于这个案例。它的索引是42100。下一个记录的索引是9534，它与第一个记录有关，因为“前一个索引_ID”这一列的值是42100。

第二个案例属于个人1，类别是9400。我们有两个条目属于这个案例。它的索引是4。下一个记录的索引是485，它与第一个记录有关，因为“前一个索引_ID”这一列的值是4。

第三个案例：

2;100;2022;1;214;102
2;100;2022;2;194231;214

属于个人2，类别是100。在这里我们可以看到，我们的数据集中没有第一个记录，它的索引应该是102。

接下来是个人3，有5条记录：

3;200;2022;2;2111;
3;200;2022;3;1012;2111
3;200;2022;4;9876;1012
3;200;2022;5;8794;9876
3;200;2022;6;24142;8794

这就是一个案例。

现在我想添加一列，给每个案例一个唯一标识符。

我的代码如下：

import pandas as pd

myfile = pd.read_csv(r"C:\pathtofile\testfile.csv", sep=";")

myfile['newID'] = myfile.groupby(['Personalnumber','Category'], sort=False).ngroup().add(1)
print(myfile)

结果确实是我想要的：

    Personalnumber  Category  Year  Month  Index_ID  Previous_Index_ID  newID
0                1       100  2022      8     42100                NaN      1
1                1       100  2022      9      9534            42100.0      1
2                1      9400  2023      9         4                NaN      2
3                1      9400  2023     10       485                4.0      2
4                2       100  2022      1       214              102.0      3
5                2       100  2022      2    194231              214.0      3
6                3       200  2022      2      2111                NaN      4
7                3       200  2022      3      1012             2111.0      4
8                3       200  2022      4      9876             1012.0      4
9                3       200  2022      5      8794             9876.0      4
10               3       200  2022      6     24142             8794.0      4
11               4       100  2022      4     42100                NaN      5
12               4       200  2022      7        12                NaN      6
12               4       200  2022      8        14                12       6
12               4       200  2022      9        485               14       6

新ID这一列显示了正确的案例编号。

现在又出现了一个新的案例：

1;100;2022;8;101;
1;100;2022;9;204;101
1;100;2022;10;4344;204
1;100;2022;11;2069;4344

这个案例也属于个人1，类别是100。现在数据看起来是这样的：

个人编号	类别	年份	月份	索引_ID	前一个索引_ID
1	100	2022	8	42100
1	100	2022	8	101
1	100	2022	9	9534	42100
1	100	2022	9	204	101
1	100	2022	10	4344	204
1	100	2022	11	2069	4344
1	9400	2023	9	4
1	9400	2023	10	485	4
2	100	2022	1	214	102
2	100	2022	2	194231	214
3	200	2022	2	2111
3	200	2022	3	1012	2111
3	200	2022	4	9876	1012
3	200	2022	5	8794	9876
3	200	2022	6	24142	8794
4	100	2022	4	42100
4	200	2022	7	12
4	200	2022	8	14	12
4	200	2022	9	485	14

正如你所看到的，数据变得混乱了，我的代码导致了错误的结果。原因是新的案例落在了同一个“位置”，它也属于类别100，并且属于个人1。然而，从索引_ID和前一个索引_ID这两列可以看出这是另一个案例。这两列显示了可以区分它们的线索，表明这两个案例是不同的。（当然，也可能还有更多的案例“落在同一个位置”，所以这并不局限于这里的两个案例。）所以我现在的问题是，如何得到以下想要的输出：

    Personalnumber  Category  Year  Month  Index_ID  Previous_Index_ID  newID
0                1       100  2022      8     42100                NaN      1
1                1       100  2022      8       101                NaN      2
2                1       100  2022      9      9534            42100.0      1
3                1       100  2022      9       204              101.0      2
4                1       100  2022     10      4344              204.0      2
5                1       100  2022     11      2069             4344.0      2
6                1      9400  2023      9         4                NaN      3
7                1      9400  2023     10       485                4.0      3
8                2       100  2022      1       214              102.0      4
9                2       100  2022      2    194231              214.0      4
10               3       200  2022      2      2111                NaN      5
11               3       200  2022      3      1012             2111.0      5
12               3       200  2022      4      9876             1012.0      5
13               3       200  2022      5      8794             9876.0      5
14               3       200  2022      6     24142             8794.0      5
15               4       100  2022      4     42100                NaN      6
16               4       200  2022      7        12                NaN      7
16               4       200  2022      8        14                12       7
16               4       200  2022      9        485               14       7

我该怎么做？

索引_ID在整个数据集中并不是唯一的，它只在每年每月内是唯一的。所以你可以看到，索引_ID 42100在2022年8月（个人编号1）出现过，也在2022年4月（个人编号4）出现过。或者索引_ID 485在2023年10月（个人编号1）出现过，也在2022年9月（个人编号4）出现过。不过，当然，它在每年每月内是唯一的。

（这些索引数字是完全随机的。所以在索引_ID或前一个索引_ID列上进行升序或降序排序并不是解决方案。）

编辑关于我对Muhammed Samed Özmen回答的评论：

考虑以下示例：

Personalnumber;Category;Year;Month;Index_ID;Previous_Index_ID
398;14;2022;1;10708;1
398;14;2022;2;50242;10708
398;14;2022;3;76850;50242
398;14;2022;4;120861;76850
398;14;2022;5;110883;120861
398;14;2022;6;188043;110883
398;14;2022;7;9432;188043
398;14;2022;8;175715;9432
398;14;2022;9;142837;175715
398;14;2022;10;152659;142837
398;14;2022;11;52335;152659
398;14;2022;12;156366;52335
398;14;2023;1;16416;156366
398;14;2023;2;163499;16416
398;14;2023;3;1;163499

在最后一行（398;14;2023;3;1;163499）时，代码抛出了递归错误。我认为递归错误可能是由于398;14;2022;1;10708;1和398;14;2023;3;1;163499引起的。

但是如果我把最后一条记录改为索引_ID = 2，像这样：

Personalnumber;Category;Year;Month;Index_ID;Previous_Index_ID
398;14;2022;1;10708;1
398;14;2022;2;50242;10708
398;14;2022;3;76850;50242
398;14;2022;4;120861;76850
398;14;2022;5;110883;120861
398;14;2022;6;188043;110883
398;14;2022;7;9432;188043
398;14;2022;8;175715;9432
398;14;2022;9;142837;175715
398;14;2022;10;152659;142837
398;14;2022;11;52335;152659
398;14;2022;12;156366;52335
398;14;2023;1;16416;156366
398;14;2023;2;163499;16416
398;14;2023;3;2;163499

那么它就可以正常工作，并且为这个案例设置了一个新的ID，正如它应该的那样（所有这些记录都属于一个案例）。

数据处理唯一标识符数据完整性数据集案例管理索引_ID 前一个索引_ID 记录追踪

为具有对应前索引/相同跟踪的案例设置唯一标识符

2 个回答

撰写回答