擅长:python、mysql、java
<p>您可以使用的策略之一是Bernoulli naivebayes(<a href="https://en.wikipedia.org/wiki/Naive_Bayes_classifier" rel="nofollow noreferrer">https://en.wikipedia.org/wiki/Naive_Bayes_classifier</a>)。在</p>
<p>这是一个简单的数学方程,它允许你将问题简化为每个类别的单词频率的简单列表。在</p>
<p>一旦您为已知属于适当类别的文本建立了一个有意义的词频基线,该公式将能够为新文本返回每个类别中匹配的概率。在</p>
<p>这可以给出一个非常大的单词x类别矩阵,但是每个元素的处理非常简单。根据您的容量和性能要求,可以对公式进行优化,将计算限制在实际出现在文本中的单词,从而分类并跳过与其他单词相关的因素,这些单词之前已经见过,但在文本中没有出现(如果Bernoulli分类器与您的解决方案相关,我可以详细说明这一点)。请注意,在Python中可能存在该分类器的现有实现(我还没有检查过)。在</p>