如何使用nlp解析器中的.conll文件进行功能选择

2024-04-26 02:26:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Malt解析器输出的.conll格式文件,它使用英格尔特线性-1.7.mco培训模式。我最初输入的是一个句子的大文本文件。如何使用此文件进行功能选择?在

我使用python和scikitlearn(目前使用tfidf单词包来选择特性)。但是,我想使用nlp,例如,只搜索形容词。如何使用conll文件进行此操作?在


Tags: 文件功能解析器模式线性特性单词句子
1条回答
网友
1楼 · 发布于 2024-04-26 02:26:15

CoNLL-X格式的解析器输出为词性标记提供了一个单独的列。例如,如果你分析句子

"I want to select adjectives only, and disregard other tags."

输出如下:

1   I           _   PRP PRP _   2   nsubj   _   _
2   want        _   VB  VBP _   0   null    _   _
3   to          _   TO  TO  _   4   aux _   _
4   select      _   VB  VB  _   2   xcomp   _   _
5   adjectives  _   NN  NNS _   4   dobj    _   _
6   only        _   RB  RB  _   4   advmod  _   _
7   ,           _   ,   ,   _   2   punct   _   _
8   and         _   CC  CC  _   2   cc  _   _
9   disregard   _   VB  VB  _   2   conj    _   _
10  other       _   JJ  JJ  _   11  amod    _   _
11  tags        _   NN  NNS _   9   dobj    _   _
12  .           _   .   .   _   2   punct   _   _

第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,只需在第4列中选择以JJ作为其粗略标记的单词。在

一旦你根据你的选择标准选择了特定的单词,你就可以用通常的方法来构造向量。在

p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成,有几个问题和答案与python方法有关)。在

相关问题 更多 >