此代码生成n个gram,并且n个gram出现的计数数。 我有一个csv文件,其中的行和列包含每行的单词字符串。 这段代码例如,当它搜索得到一个4克的“这是我的小狗”时,它还会计算它在同一行中出现的次数。 我的意思是,当它在一行中出现n-gram时,它应该计数一次,在另一行中计算第二次,依此类推。在
e.g row Word
1 this is my puppy what this is my puppy
2 this is my puppy
所以这个代码把“这是我的小狗”算作3次。但我希望是2次
这是python代码
^{pr2}$我们将非常感谢你的帮助。 谢谢你
您可以使用
defaultdict
,而不是半手工地填充ngrams
为了防止同一行中的同一个ngram dict计数两次,您必须为每行生成一个ngram dict,然后将其与普通ngram dict相结合
我不能100%理解}没有重置每一行,你可能需要调整一下我的答案
while len(queue) > min_length:
后面的部分,或者为什么{相关问题 更多 >
编程相关推荐