使用CountVectoriz为LDA主题模型准备数据集

2024-04-19 04:59:35 发布

您现在位置:Python中文网/ 问答频道 /正文


Tags: python
1条回答
网友
1楼 · 发布于 2024-04-19 04:59:35

幸运的是,我找到了一个给我答案的博客。在

当我使用以下方法标记文本时:

import re
REGEX = re.compile(r",\s*")
def tokenize(text):
    return [tok.strip().lower() for tok in REGEX.split(text)]

并将标记器传递给CountVectorizer,如下所示:

^{pr2}$

相关问题 更多 >