在Python中,如何从数据集中查找每个不同单词的计数: https://drive.google.com/open?id=1ADdzZp31SwiF70IZ13hbAtPNHBv5NmOY
我已使用导入数据集:
# Load the data
fin = open("b.txt", 'r')
translist = []
for line in fin:
trans = line.strip().split(' ')
translist.append(trans)
我需要每个元素的支持来执行连续模式采矿。为了例如,假设短语“parking lot”有一个绝对支持133,那么对应于“b.txt”中这个频繁连续序列模式的行应该是:
133:停车场
这似乎管用。为字典采样的最大长度短语是可变pŠlength(I设置3),为排名列表采样的最大长度短语是pŠsize(I设置3,越小,当然最高频率越高),并且最终排名列表中的单词数是可变秩(I设置25)。这些设置在第8-10行。它打印的排名列表的长度(请参见“def top\u list():”的末尾),是以单词数表示的达到p\u长度的短语总数。你知道吗
相关问题 更多 >
编程相关推荐