如何从看不见文档的列表中识别术语

1条回答

网友

1楼 · 发布于 2024-04-26 20:59:07

在Scikit learn（一个非常流行的机器学习Python包）中，有一个模块，它完全满足您的要求：

以下是操作方法：

首先安装sklearn

pip install scikit-learn

现在代码是：

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(1, 3))

#Given your corpus is an iterable of strings, or a List of strings, for simplicity:
corpus = [...]

X = vectorizer.fit_transform(corpus)

print(X)

输出是一个大小为m x n的矩阵，例如：

[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]

列表示单词，行表示文档。所以对于每一行，你都有一个单词包。你知道吗

但是如何检索出现在哪里的单词呢？您可以使用以下方法获取每个“列”名称：

print(vectorizer.get_feature_names())

你会得到一个单词列表（单词按字母顺序排列）。你知道吗

现在，假设您想知道每个单词在语料库中出现的次数（而不是在单个文档中）。你知道吗

作为输出接收的矩阵是一个“numpy”（另一个包）数组。这可以通过执行以下操作轻松展平（求和所有行）：

import numpy as np #np is like a convention for numpy, if you don't know this already.

sum_of_all_words = np.sum(X, axis=0)

这会给你一些类似于：

[[1 4 2 4 1 1 4 1 4]]

单词的列顺序相同。你知道吗

最后，您可以通过执行以下操作从词典中筛选术语：

dict_terms = corpora.Dictionary(phrases)
counts = {}
words = vectorizer.get_feature_names()
for idx, word in enumerate(words):
   if word in dict_terms:
      counts[word] = sum_of_all_words[0, idx]

希望这有帮助！你知道吗

（另外，看看TFIDFVectorizer，如果你用的是一堆文字，tfidf在大多数情况下是一个巨大的升级）

我还建议您使用sklearn:https://scikit-learn.org/stable/modules/feature_extraction.html查看本页的特征提取

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从看不见文档的列表中识别术语

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >