一个CSV文件有两个指定的帐户结构。 我的问题是,有一个双反向条目为这些链接的每一个。你知道吗
示例
Column1 Column2
12513 52188
52188 12513
另一个问题,我也有可能有更多的条目,其中指定另一个链接,从同一个帐号
Column1 Column2
12513 52188
52188 12513
52188 19922
19922 52188
19922 12812
12812 19922
18216 59888
59888 18216
3856 59888
59888 3856
正如您所看到的,所有帐户都以某种方式相互关联,我要查找的输出应该创建一个与从属帐户链接的主帐户(可能是值最低的帐户),并删除双反条目。你知道吗
上述数据输出示例:
Column1 Column2
12513 52188
12513 19922
12513 12812
3856 59888
3856 18216
该文件包含大约20000行, 请注意,并不是只有一个主帐户。你知道吗
所以问题是:
给定表单中的数据集
识别链
1 -> 2 -> 3 -> 4
和5 -> 6 -> 7
并输出为这里有一个python的工作解决方案。(节日快乐)
要运行它,请使用
python thisfile.py yourdata.csv > output.csv
当然,您需要安装python3。 代码中有很多注释。我根本没有考虑效率问题,所以把水壶放上——大约需要15分钟才能完成。
如果你想它更快,它是列表.append()需要时间的电话。使用numpy可能会加快速度,但我不想添加额外的依赖项。你知道吗
如果你有任何问题,请告诉我。你知道吗
示例数据的输出为:
相关问题 更多 >
编程相关推荐