链接pandas数据帧的行
pandas-linker的Python项目详细描述
#pandas linker在pandas数据帧的不同排序上运行比较窗口,并通过指定的uuid链接行。此库实际上不执行任何重复检测。相反,它提供了在数据上运行自己的比较函数的工具。
相反,您可以决定数据帧的排序顺序,并且只能在滑动窗口中比较每一行和每一行之间的数据帧排序顺序,而只能在滑动窗口中比较每一行。
0皮特|西班牙
1玛丽美国
2巴特美国
3玛丽美国
方法如下:
``python
from pandas链接器import get链接器
def比较行(a,b):
''决定两行是否表示同一实体的示例函数。''
df是pandas.dataframe,具有唯一索引
field='uid')作为链接器:
cmp=compare_row)
`````
[ix]姓名国家uid
——————————————————
0彼得西班牙;7509781940fc471Cad5dc471Cad5dc32944646525d5dc5251515194464652D575751941414141414141414141414141414141414141414141414141414141414141414141414D6C
美国|12b55fbe80f64d378193acd727b0e051
3 mary us 8f8dccd91568472daf740e9160349d6c
请注意,数据帧中的两个“mary”行都被标识为表示同一实体,并且被分配了相同的uuid。
相反,您可以决定数据帧的排序顺序,并且只能在滑动窗口中比较每一行和每一行之间的数据帧排序顺序,而只能在滑动窗口中比较每一行。
0皮特|西班牙
1玛丽美国
2巴特美国
3玛丽美国
方法如下:
``python
from pandas链接器import get链接器
def比较行(a,b):
''决定两行是否表示同一实体的示例函数。''
df是pandas.dataframe,具有唯一索引
field='uid')作为链接器:
`````
[ix]姓名国家uid
——————————————————
0彼得西班牙;7509781940fc471Cad5dc471Cad5dc32944646525d5dc5251515194464652D575751941414141414141414141414141414141414141414141414141414141414141414141414D6C
美国|12b55fbe80f64d378193acd727b0e051
3 mary us 8f8dccd91568472daf740e9160349d6c
请注意,数据帧中的两个“mary”行都被标识为表示同一实体,并且被分配了相同的uuid。