从英文文本中提取产品名称
我想从英文文本中提取正在销售的产品名称。
比如说:
“我在卖全新的xbox”
“出售很少用过的27寸电视”
我希望能得到 "xbox"
和 "27寸电视"
这样的结果。
目前我能想到的办法就是硬编码一个包含重要名词和形容词的大列表: ['电视', '冰箱', 'xbox', '笔记本电脑', 等等]
有没有更好的方法呢?
1 个回答
1
看起来nltk会给你一个单词和它们词性(比如名词、动词等)的列表。因为你只对名词感兴趣?这个链接可以帮你找到名词。
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is',
'VBZ'), ("n't", 'RB'), ('all', 'DT'), ('that', 'DT'), ('bad', 'JJ'),
('.', '.')]