我在看NLTK中naivebayes分类器的源代码
http://www.nltk.org/_modules/nltk/classify/naivebayes.html
在最上面,他们解释了计算概率的方法。在
我想知道,这个算法是如何计算我的语料库的概率的。在
我(目前)有大约500个文本文件,其中有标记为肯定的句子和198个标记为否定的句子。在
所以概率p(pos)是500/619,p(neg)是198/618。到现在为止,一直都还不错。在
p(f1 | label)是一个特征(在我的例子中,一个词)出现在标记pos的句子中的概率,对吗?在
如果我的问题中有70个单词(共有4500个单词),那么在我的问题中,有一个单词被标记成500个单词,那么在这个问题中,有一个单词被标记成每一个单词?在
然后它说“与其显式地计算p(特征),算法只是 计算每个标签的分母,并将它们规范化,使它们 和为一: ““
那有什么用呢?这到底是什么意思?在
鉴于“这是一个非常危险的影响”这句话,它应该被标记为pos。 根据上面使用的数字,这个句子是pos的概率是:
(500/619)*p(这个|位置)*(is |位置)*(a |位置)。。。等等/(无论金额(L)是什么意思)
对吗?在
还有另一个问题:我在这里读到,Different results between the Bernoulli Naive Bayes in NLTK and in scikit-learnNLTK使用多项式朴素bayes。你怎么能从源代码中分辨出来呢?在
目前没有回答
相关问题 更多 >
编程相关推荐