我需要计算包含如下文本的文本文件的Unigrams、BiGrams和Trigrams:
“仅在美国,囊性纤维化就影响了30000名儿童和年轻人 吸入盐水的雾气可以减少充满囊性纤维化患者气道的脓液和感染,尽管副作用包括剧烈的咳嗽和难闻的味道。 这是本周出版的《新英格兰医学杂志》上发表的两项研究的结论。”
我从Python开始使用以下代码:
#!/usr/bin/env python
# File: n-gram.py
def N_Gram(N,text):
NList = [] # start with an empty list
if N> 1:
space = " " * (N-1) # add N - 1 spaces
text = space + text + space # add both in front and back
# append the slices [i:i+N] to NList
for i in range( len(text) - (N - 1) ):
NList.append(text[i:i+N])
return NList # return the list
# test code
for i in range(5):
print N_Gram(i+1,"text")
# more test code
nList = N_Gram(7,"Here is a lot of text to print")
for ngram in iter(nList):
print '"' + ngram + '"'
http://www.daniweb.com/software-development/python/threads/39109/generating-n-grams-from-a-word
但它对一个词内的所有n-克都有效,当我想要它在两个词之间时,如在囊性纤维化或囊性纤维化中。有人能帮我解决这个问题吗?
使用NLTK(自然语言工具包)并使用函数将文本标记(拆分)到列表中,然后查找bigrams和trigrams。
假设输入是一个包含空格分隔单词的字符串,例如
x = "a b c d"
,则可以使用以下函数(编辑:请参阅最后一个函数以获得可能更完整的解决方案):如果您希望将这些连接回到字符串中,可以调用如下命令:
最后,这并不能把事情总结成总数,所以如果您的输入是
'a a a a'
,那么您需要将它们计算成一个dict:把所有这些放在一起形成一个最终函数:
从这个blog得到一个短的Python解决方案:
用法:
相关问题 更多 >
编程相关推荐