基于NLTK的朴素贝叶斯句子概率计算

2024-05-15 00:09:35 发布

男 | 程序猿一只，喜欢编程写python代码。

我在看NLTK中naivebayes分类器的源代码

http://www.nltk.org/_modules/nltk/classify/naivebayes.html

在最上面，他们解释了计算概率的方法。在

我想知道，这个算法是如何计算我的语料库的概率的。在

我（目前）有大约500个文本文件，其中有标记为肯定的句子和198个标记为否定的句子。在

所以概率p（pos）是500/619，p（neg）是198/618。到现在为止，一直都还不错。在

p（f1 | label）是一个特征（在我的例子中，一个词）出现在标记pos的句子中的概率，对吗？在

如果我的问题中有70个单词（共有4500个单词），那么在我的问题中，有一个单词被标记成500个单词，那么在这个问题中，有一个单词被标记成每一个单词？在

然后它说“与其显式地计算p（特征），算法只是计算每个标签的分母，并将它们规范化，使它们和为一： ““

那有什么用呢？这到底是什么意思？在

鉴于“这是一个非常危险的影响”这句话，它应该被标记为pos。根据上面使用的数字，这个句子是pos的概率是：

（500/619）*p（这个|位置）*（is |位置）*（a |位置）。。。等等/（无论金额（L）是什么意思）

对吗？在

还有另一个问题：我在这里读到，Different results between the Bernoulli Naive Bayes in NLTK and in scikit-learnNLTK使用多项式朴素bayes。你怎么能从源代码中分辨出来呢？在

Tags： in 标记 pos 算法 http 源代码分类器 www

0条回答

目前没有回答