我创建了这个函数,它在tweet中生成两个单词的每个组合,包括bigrams。例如,这条微博: “Facebook和阿里巴巴报告称,手机使用量增长惊人”
将标记为:
[‘Facebook阿里巴巴’、‘Facebook报道’、‘Facebook头脑风暴’、‘Facebook增长’、‘Facebook移动’、‘Facebook使用率’、' “阿里巴巴报告”、“阿里巴巴头脑风暴”、“阿里巴巴增加”、“阿里巴巴移动”、“阿里巴巴使用量”、“报告头脑风暴”、“报告增加”、“报告移动”、“报告使用量”、“头脑风暴增加”、“头脑风暴移动”、“头脑风暴使用量”、“增加移动”,'增加使用量','移动使用量']
功能是:
def mulibigramReturner (str_tweet_text,stopWords):
multibigramFeatureVector = []
list_str_words =getTokens( str_tweet_text,stopWords)
for item in itertools.combinations(list_str_words, 2):
multibigramFeatureVector.append(' '.join([item[0], item[1]]))
return multibigramFeatureVector
问题是计算频率,在NLTK中找到一个类似BigramCollabonFinder和BigramAssocMeasures的函数来计算频率,并找到最佳的组合作为以后分类过程的特征。你能给我一个克服这个问题的提示吗。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐