基于NLTK的朴素贝叶斯句子概率计算

2024-05-15 00:09:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我在看NLTK中naivebayes分类器的源代码

http://www.nltk.org/_modules/nltk/classify/naivebayes.html

在最上面,他们解释了计算概率的方法。在

我想知道,这个算法是如何计算我的语料库的概率的。在

我(目前)有大约500个文本文件,其中有标记为肯定的句子和198个标记为否定的句子。在

所以概率p(pos)是500/619,p(neg)是198/618。到现在为止,一直都还不错。在

p(f1 | label)是一个特征(在我的例子中,一个词)出现在标记pos的句子中的概率,对吗?在

如果我的问题中有70个单词(共有4500个单词),那么在我的问题中,有一个单词被标记成500个单词,那么在这个问题中,有一个单词被标记成每一个单词?在

然后它说“与其显式地计算p(特征),算法只是 计算每个标签的分母,并将它们规范化,使它们 和为一: ““

那有什么用呢?这到底是什么意思?在

鉴于“这是一个非常危险的影响”这句话,它应该被标记为pos。 根据上面使用的数字,这个句子是pos的概率是:

(500/619)*p(这个|位置)*(is |位置)*(a |位置)。。。等等/(无论金额(L)是什么意思)

对吗?在

还有另一个问题:我在这里读到,Different results between the Bernoulli Naive Bayes in NLTK and in scikit-learnNLTK使用多项式朴素bayes。你怎么能从源代码中分辨出来呢?在


Tags: in标记pos算法http源代码分类器www

热门问题