2024-04-26 02:26:15 发布
网友
我有一个Malt解析器输出的.conll格式文件,它使用英格尔特线性-1.7.mco培训模式。我最初输入的是一个句子的大文本文件。如何使用此文件进行功能选择?在
我使用python和scikitlearn(目前使用tfidf单词包来选择特性)。但是,我想使用nlp,例如,只搜索形容词。如何使用conll文件进行此操作?在
CoNLL-X格式的解析器输出为词性标记提供了一个单独的列。例如,如果你分析句子
"I want to select adjectives only, and disregard other tags."
输出如下:
1 I _ PRP PRP _ 2 nsubj _ _ 2 want _ VB VBP _ 0 null _ _ 3 to _ TO TO _ 4 aux _ _ 4 select _ VB VB _ 2 xcomp _ _ 5 adjectives _ NN NNS _ 4 dobj _ _ 6 only _ RB RB _ 4 advmod _ _ 7 , _ , , _ 2 punct _ _ 8 and _ CC CC _ 2 cc _ _ 9 disregard _ VB VB _ 2 conj _ _ 10 other _ JJ JJ _ 11 amod _ _ 11 tags _ NN NNS _ 9 dobj _ _ 12 . _ . . _ 2 punct _ _
第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,只需在第4列中选择以JJ作为其粗略标记的单词。在
JJ
一旦你根据你的选择标准选择了特定的单词,你就可以用通常的方法来构造向量。在
p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成,有几个问题和答案与python方法有关)。在
CoNLL-X格式的解析器输出为词性标记提供了一个单独的列。例如,如果你分析句子
输出如下:
第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,只需在第4列中选择以
JJ
作为其粗略标记的单词。在一旦你根据你的选择标准选择了特定的单词,你就可以用通常的方法来构造向量。在
p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成,有几个问题和答案与python方法有关)。在
相关问题 更多 >
编程相关推荐