寻找一个函数,计算频率和选择单词的最佳组合

2024-04-24 00:15:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我创建了这个函数,它在tweet中生成两个单词的每个组合,包括bigrams。例如,这条微博: “Facebook和阿里巴巴报告称,手机使用量增长惊人”

将标记为:

[‘Facebook阿里巴巴’、‘Facebook报道’、‘Facebook头脑风暴’、‘Facebook增长’、‘Facebook移动’、‘Facebook使用率’、' “阿里巴巴报告”、“阿里巴巴头脑风暴”、“阿里巴巴增加”、“阿里巴巴移动”、“阿里巴巴使用量”、“报告头脑风暴”、“报告增加”、“报告移动”、“报告使用量”、“头脑风暴增加”、“头脑风暴移动”、“头脑风暴使用量”、“增加移动”,'增加使用量','移动使用量']

功能是:

   def mulibigramReturner (str_tweet_text,stopWords):


         multibigramFeatureVector = []
        list_str_words =getTokens( str_tweet_text,stopWords)

        for item in itertools.combinations(list_str_words, 2):
            multibigramFeatureVector.append(' '.join([item[0], item[1]]))
   return multibigramFeatureVector

问题是计算频率,在NLTK中找到一个类似BigramCollabonFinder和BigramAssocMeasures的函数来计算频率,并找到最佳的组合作为以后分类过程的特征。你能给我一个克服这个问题的提示吗。你知道吗


Tags: 函数textfacebook报告itemlisttweet频率