使用机器学习对大文本进行分类

2条回答

网友

1楼 · 编辑于 2024-05-15 03:45:51

一个好的方法是将.xls文件转换为pandas数据帧，并使用fasttexthttps://fasttext.cc/创建一个文本分类模型，任何新文本都将被分类到其各自的类别中。请参阅https://github.com/facebookresearch/fastText以获取正确的文档。在

网友

2楼 · 编辑于 2024-05-15 03:45:51

您可以使用的策略之一是Bernoulli naivebayes（https://en.wikipedia.org/wiki/Naive_Bayes_classifier）。在

这是一个简单的数学方程，它允许你将问题简化为每个类别的单词频率的简单列表。在

一旦您为已知属于适当类别的文本建立了一个有意义的词频基线，该公式将能够为新文本返回每个类别中匹配的概率。在

这可以给出一个非常大的单词x类别矩阵，但是每个元素的处理非常简单。根据您的容量和性能要求，可以对公式进行优化，将计算限制在实际出现在文本中的单词，从而分类并跳过与其他单词相关的因素，这些单词之前已经见过，但在文本中没有出现（如果Bernoulli分类器与您的解决方案相关，我可以详细说明这一点）。请注意，在Python中可能存在该分类器的现有实现（我还没有检查过）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用机器学习对大文本进行分类

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >