又一个通用朴素贝叶斯分类器

naiveBayesClassifier的Python项目详细描述


朴素贝叶斯分类器又是一种通用朴素贝叶斯分类器。(在大量开发中)

血淋淋的。
你想用这个预先分类/预先分类的文本来训练一个系统。因此,您最好将此数据称为您的训练集。
"
从NaiveBayesClassifier导入标记器
从NaiveBayesClassifier导入标记器。Trainer导入Trainer
从NaiveBayesClassifier导入标记器。Classifier导入标记器


tem将每个文本逐个传递给教练模块。
新闻集=[
{'text':'不吃太多不足以减肥','category':'health'},
{'text':'俄罗斯试图入侵乌克兰','category':'politics'},
{'text':'不要忽视锻炼','category':"健康"},
{'text':'叙利亚是主要问题,奥巴马说,''类别':'政治'},
{'text':'吃东西减肥','类别':'健康'},
{'text':'你不应该吃太多','类别':'健康'}
]

s['category'])

拥有,但是。
unknown instance="即使我吃得太多,也不可能减肥吗"
classification=newsregifier.classification(unknown instance)

```
***注意***:您肯定需要比上面示例中的数量多得多的培训数据。实际上,像这个例子中这样的几行文字是不可能成为足够的训练集的。





相反,这里引用了一个最有说服力的解释。



>;贝叶斯分类刷新器:假设您有一组类
>;(例如类别)c:={c 1,…,cu n},以及一个文档d,包含单词d:={w1,…,wu k}。我们希望确定在给定一组与文档和类相关联的训练数据的情况下,文档属于某个C类的概率
>;
>;
>;
>;根据贝叶斯定理,我们得到了
>;
>;p(c_j_d)=p(d_c_j)*p(c_j)/p(d)。
>;
>;
>;lhs是给定文档本身,文档属于c_j
>;类的概率(实际上,这意味着该文档中出现的单词
>;频率),我们的程序将
>;计算每个j的该概率,并找出最有可能的
>;为该文档分类。
>;
>;p(c_j)被称为"优先"概率,或文档通常属于c_j的概率,而不首先看到
>;文档。p(d c_j)是看到这样一个
>;文档的概率,因为它属于c_j。在这里,通过假设单词
>;独立出现在文档中(这是"天真的"假设),我们可以估计
>;
>;p(d c_j)~=p(w_1 c_j)*…*p(w_k c_j)
>;
>;其中p(w_i_c_j)是在给定类的
>;文档中看到给定单词的概率。最后,p(d)可以看作是一个
>;sc且与分类无关,
>;除非您希望将结果分数标准化并实际看到
>;概率。在这种情况下,请注意
>;
>;p(d)=和j(p(d c_j)*p(c_j))
>;
>;执行这些计算时的一个实际问题是计算p(d c_j)时,float64下溢的可能性,因为
>;单个单词的概率可以任意小,并且
>;文档可以具有任意的la他们的人数。处理此情况的典型方法是将概率转换为
>;日志域并执行加法而不是乘法运算:
>;
>;log p(c_j)~log(p(c_j))+sum_i(log p(w_i_j))
>;
>;其中i=1,…,k。请注意,通过这样做,我们将放弃缩放事实。r p(d)和我们的分数不再是概率;
>;但是,分数的单调关系由
>;log函数保持。

ents
这个分类器使用一个非常简单的标记器,它是一个将句子拆分成单词的模块。如果你的训练集很大,你可以依赖可用的标记器,否则你需要有一个更好的标记器专门用于你的训练文本的语言。

\todo
*内联文档
*单元测试

\authors
*mustafa atik@muatik
*nejdet yucesoy@nejdetckenobi


[1]:https://github.com/jbrukh/bayesian/blob/master/bayesian.go
[2]:http://www.cs.ucr.edu/~eamonn/ce/bayesian%20classification%20withinspect\u examples.pdf
[3]:http://nlp.stanford.edu/ir-book/html/htmledition/naive-bayes-text-classification-1.html

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用Java中的setter方法访问通过静态方法创建的实例的私有字段出错了,可以做什么?   javagui中的swing文档模型   java Spring JDBCTemplate+事务管理器内存泄漏   java不支持EntityManager。如果实体是@Cached/@Cacheable,getReference()是否重要?   java给定一个整数数组[x0-x1-x2],如何计算从[0-0]到[x0-x1-x2]的所有可能的置换?   java询问用户希望输入多少个名称,并将这些名称存储在数组中   java需要关于jComboBox和jTable的帮助   使用ArrayList的代码中出现java越界异常错误   java文件系统找不到指定的路径   java玩家名单总结   java验证上传的图像DPI和大小是否可打印   java当您更改xml文件中的属性时,调用哪个自定义视图的构造函数?