如何使用Python将包含stopword的短语视为单个标记nltk.tokeniz公司

1条回答

网友

1楼 · 发布于 2024-05-16 06:40:36

您可以使用nltk的Multi-Word Expression Tokenizer，它允许将多个单词表达式合并为单个标记。您可以创建包含多个单词表达式的词典，并按如下方式向其中添加条目：

from nltk.tokenize import MWETokenizer
mwetokenizer = MWETokenizer([('President','of','the','United','States')], separator=' ')
mwetokenizer.add_mwe(('President','of','France'))

请注意，MWETokenizer将标记化文本的列表作为输入，并重新标记它。因此，首先用word_tokenize()标记句子，然后将其输入MWETokenizer：

^{pr2}$

然后，过滤掉停止词，得到最后过滤的标记化句子：

^{3}$

输出：

['Trump', 'President of the United States', ',', 'Macron', 'President of France', '.']

编程相关推荐

java Play Framework 2.1中的简单搜索？
java：Springbeans的真正工作原理
java不能从字符串中提取数字
不同管道中的java共享ExecutionHandler
在Java中，如何为扩展comparator的类实现多个comparator方法？
通用混沌Java
java问题：从自定义类获取要添加到驱动程序类的形状
java如何利用HikariCP和Hibernate？
eclipse如何执行Java应用程序？
用户界面Java Swing：如何将JLabel的文本绑定到JTable选定行中的列？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Python将包含stopword的短语视为单个标记nltk.tokeniz公司

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >