删除标记的句子中不需要的符号

import nltk from nltk.corpus import brown brown_tags = [] for sent in brown.tagged_sents(categories = 'news', simplify_tags = True): brown_tags.extend([tag for (word, tag) in sent]) tag_set = set(brown_tags)

2条回答

网友

1楼 · 编辑于 2024-06-02 08:32:48

奇怪的标签不是错误。您可以使用nltk.help.brown_tagset()查看标记及其含义的完整列表。神秘标记代表句子的结束（.，代表.，?，!等）、否定词（*代表not，n't）等等，所以不要把它们扔掉。在

另外，您接受的答案将过滤掉所有的双标记，如VB+PRO（动词加代词，如lemme，gimme）。别这么快就把信息扔出去。在

网友

2楼 · 编辑于 2024-06-02 08:32:48

你可以这样移除

>>> lst = ['', 'FW', 'DET', 'WH', "''", 'VBZ', 'VB+PPO', "'", ')', 'ADJ', 'PRO', '*', ',', '.', 'TO', 'NUM', 'NP', ':', 'ADV', '``', 'VD', 'VG', 'VN', 'N', 'P', 'EX', 'V', 'CNJ', 'UH', '(', 'MOD']    
>>> print ([ i for i in lst if i.isalpha() ])
['FW', 'DET', 'WH', 'VBZ', 'ADJ', 'PRO', 'TO', 'NUM', 'NP', 'ADV', 'VD', 'VG', 'VN', 'N', 'P', 'EX', 'V', 'CNJ', 'UH', 'MOD']

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除标记的句子中不需要的符号

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >