解析大文件，计算唯一字符串的数量？ - 问答 - Python中文网

解析大文件，计算唯一字符串的数量？

2024-04-26 00:21:01 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在分析大量以逗号分隔的文件。每个文件包含数千行，每行有相同数量的字段，填充有相似或不同的字符串。我已经对文件进行了解析，并将每一行保存为Python列表。我想知道如何在python中解析所有捕获的列表，例如，返回第[1]项中唯一字符串的数量，或者返回列表中我想要的任何项目。你知道吗

我该怎么办？谢谢你阅读我的第一篇博文！：）

Tags：文件项目字符串列表数量逗号

1条回答

网友

1楼 · 发布于 2024-04-26 00:21:01

如果希望简洁，可以使用^{}、^{}和^{}：

num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows)))

好处：对于数量庞大的数据，不仅行可能不适合内存，而且唯一值集也不适合，而且您可以使用HyperLogLog来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它的合理性，但我发现这是一个有趣的离题。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章