Python：用短语标记

网友

1楼 · 编辑于 2024-05-15 22:28:50

您可以使用NLTK的多字表达式标记器^{}：

from nltk.tokenize import MWETokenizer
tokenizer = MWETokenizer()
tokenizer.add_mwe(('the', 'west', 'wing'))
tokenizer.tokenize('Something about the west wing'.split())

你将得到：

['Something', 'about', 'the_west_wing']

网友

2楼 · 编辑于 2024-05-15 22:28:50

如果您事先不知道特定的短语，可以使用scikit的CountVectorizer()类。它可以选择指定更大的n-gram范围（ngram_range），然后忽略在足够的文档中没有出现的任何单词（min_df）。你可能会发现一些你没有意识到的短语很常见，但你也可能发现一些毫无意义的短语。它还可以使用stop_words参数筛选出英语的stopwords（如“is”等无意义的单词）。

网友

3楼 · 编辑于 2024-05-15 22:28:50

如果你有一个固定的短语集，你正在寻找，那么简单的解决方案是标记你的输入和“重组”多字标记。或者，在将The West Wing转换为The_West_Wing的标记化之前执行regexp search&replace。

有关更高级的选项，请使用^{}或参阅chapter 7 of the NLTK book。

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：用短语标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >