寻找一个函数，计算频率和选择单词的最佳组合

2024-04-24 00:15:34 发布

您现在位置：Python中文网/ 问答频道 /正文

4720

网友

男 | 程序猿一只，喜欢编程写python代码。

我创建了这个函数，它在tweet中生成两个单词的每个组合，包括bigrams。例如，这条微博： “Facebook和阿里巴巴报告称，手机使用量增长惊人”

将标记为：

[‘Facebook阿里巴巴’、‘Facebook报道’、‘Facebook头脑风暴’、‘Facebook增长’、‘Facebook移动’、‘Facebook使用率’、' “阿里巴巴报告”、“阿里巴巴头脑风暴”、“阿里巴巴增加”、“阿里巴巴移动”、“阿里巴巴使用量”、“报告头脑风暴”、“报告增加”、“报告移动”、“报告使用量”、“头脑风暴增加”、“头脑风暴移动”、“头脑风暴使用量”、“增加移动”，'增加使用量'，'移动使用量']

功能是：

   def mulibigramReturner (str_tweet_text,stopWords):


         multibigramFeatureVector = []
        list_str_words =getTokens( str_tweet_text,stopWords)

        for item in itertools.combinations(list_str_words, 2):
            multibigramFeatureVector.append(' '.join([item[0], item[1]]))
   return multibigramFeatureVector

问题是计算频率，在NLTK中找到一个类似BigramCollabonFinder和BigramAssocMeasures的函数来计算频率，并找到最佳的组合作为以后分类过程的特征。你能给我一个克服这个问题的提示吗。你知道吗

Tags：函数 text facebook 报告 item list tweet 频率

0条回答

目前没有回答

寻找一个函数，计算频率和选择单词的最佳组合

相关问题更多 >

编程相关推荐

热门问题

热门文章

寻找一个函数，计算频率和选择单词的最佳组合

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >