Python是否为文本关系提供任何库?

2024-04-23 06:02:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个词,让我们说'美国',和文本文件。我想知道整个文件是否是关于“美国”的。“美国”这个词在文件中可能会被提到100或1000次,但到最后文件可能会提到中国

我在Python中浏览了情绪分析库,但是这些库只有在doc以积极、消极或中立的方式提到单词时才会返回

我也可以数一数这个词被提及的次数,以及这个词和文档中每个词之间的相似度,但仍然不知道如何判断文档整体上是否与所提及的词有关

python中有任何库或api可以实现这一点吗


Tags: 文件文档apidoc方式单词次数整体
1条回答
网友
1楼 · 发布于 2024-04-23 06:02:36

没有任何真正好的完整的解决方案库。您可能需要使用类似NLTK的东西来进行词干分析(http://www.nltk.org)。词干如下:“法拉利->;跑车->;汽车->;交通”,这使你能看到一个词的“基础”概念

然后您可能需要进行某种TF/IDF分析,以确定文档的确切内容。这将帮助您确定哪些单词是重要的(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

关于TF/IDF的好教程可以在这里看到:http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/

相关问题 更多 >