标记化后的单词包

2条回答

网友
1楼 · 编辑于 2024-05-12 19:35:30

如果共享管道，将会有更好的更新。但你的例子很简单-
from sklearn.feature_extraction.text import CountVectorizer vec = CountVectorizer(stop_words='english') op = vec.fit_transform(['Tom likes blue.', 'Adam likes yellow.' ,'Ann likes red and blue']) print(op.todense()) print(vec.vocabulary_)
输出
[[0 0 0 1 1 0 1 0] [1 0 0 0 1 0 0 1] [0 1 1 1 1 1 0 0]] {'tom': 6, 'likes': 4, 'blue': 3, 'adam': 0, 'yellow': 7, 'ann': 2, 'red': 5, 'and': 1}

网友
2楼 · 编辑于 2024-05-12 19:35:30

如果我理解正确的话，你想从一个标记化文本文档中准备一袋单词，这是错误的方法。在对每个文档（语料库）进行预处理之后，基本上必须回到“句子”的形式
['hello', 'like', mountain', 'spring']
快去吧
'hello like mountain spring'
对所有文档都这样做，这样您将拥有与示例中的数组相似的数组
['hello like mountain summer', 'another string here', 'another also here']
这是我们可以开始准备一袋单词的表格，它将是：
{hello, like, mountain, summer, another, string, here, also}
从这一点上，计算TF，TFID是很容易的，这是符合CountVectorizer期望的形式。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章