2024-04-23 06:02:36 发布
网友
我有一个词,让我们说'美国',和文本文件。我想知道整个文件是否是关于“美国”的。“美国”这个词在文件中可能会被提到100或1000次,但到最后文件可能会提到中国
我在Python中浏览了情绪分析库,但是这些库只有在doc以积极、消极或中立的方式提到单词时才会返回
我也可以数一数这个词被提及的次数,以及这个词和文档中每个词之间的相似度,但仍然不知道如何判断文档整体上是否与所提及的词有关
python中有任何库或api可以实现这一点吗
没有任何真正好的完整的解决方案库。您可能需要使用类似NLTK的东西来进行词干分析(http://www.nltk.org)。词干如下:“法拉利->;跑车->;汽车->;交通”,这使你能看到一个词的“基础”概念
然后您可能需要进行某种TF/IDF分析,以确定文档的确切内容。这将帮助您确定哪些单词是重要的(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
关于TF/IDF的好教程可以在这里看到:http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/
没有任何真正好的完整的解决方案库。您可能需要使用类似NLTK的东西来进行词干分析(http://www.nltk.org)。词干如下:“法拉利->;跑车->;汽车->;交通”,这使你能看到一个词的“基础”概念
然后您可能需要进行某种TF/IDF分析,以确定文档的确切内容。这将帮助您确定哪些单词是重要的(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
关于TF/IDF的好教程可以在这里看到:http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/
相关问题 更多 >
编程相关推荐