解析大文件,计算唯一字符串的数量?

2024-04-26 00:21:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在分析大量以逗号分隔的文件。每个文件包含数千行,每行有相同数量的字段,填充有相似或不同的字符串。我已经对文件进行了解析,并将每一行保存为Python列表。我想知道如何在python中解析所有捕获的列表,例如,返回第[1]项中唯一字符串的数量,或者返回列表中我想要的任何项目。你知道吗

我该怎么办?谢谢你阅读我的第一篇博文!:)


Tags: 文件项目字符串列表数量逗号
1条回答
网友
1楼 · 发布于 2024-04-26 00:21:01

如果希望简洁,可以使用^{}^{}^{}

num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows)))

好处:对于数量庞大的数据,不仅行可能不适合内存,而且唯一值集也不适合,而且您可以使用HyperLogLog来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它的合理性,但我发现这是一个有趣的离题。你知道吗

相关问题 更多 >