2024-04-26 00:21:01 发布
网友
我正在分析大量以逗号分隔的文件。每个文件包含数千行,每行有相同数量的字段,填充有相似或不同的字符串。我已经对文件进行了解析,并将每一行保存为Python列表。我想知道如何在python中解析所有捕获的列表,例如,返回第[1]项中唯一字符串的数量,或者返回列表中我想要的任何项目。你知道吗
我该怎么办?谢谢你阅读我的第一篇博文!:)
如果希望简洁,可以使用^{}、^{}和^{}:
num_unique_in_first_column = len(collections.Counter(map(operator.itemgetter(0), rows)))
好处:对于数量庞大的数据,不仅行可能不适合内存,而且唯一值集也不适合,而且您可以使用HyperLogLog来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它的合理性,但我发现这是一个有趣的离题。你知道吗
如果希望简洁,可以使用^{} 、^{} 和^{} :
好处:对于数量庞大的数据,不仅行可能不适合内存,而且唯一值集也不适合,而且您可以使用HyperLogLog来估计唯一值的数量。你几乎肯定没有足够的数据来证明使用它的合理性,但我发现这是一个有趣的离题。你知道吗
相关问题 更多 >
编程相关推荐