句法ngrams(sngram)抽取的实现
SNgramExtractor的Python项目详细描述
这是什么?
SNgramExtractor模块帮助提取作为sn-gram元素的语法关系(SR标记)。在
我们沿着依赖项中箭头标记的路径,获得sngram
句法n-gram(SN-grams)的优点是它比传统的n-gram具有更少的任意性。因此,它们的数量少于传统的n-gram数。此外,它们可以被解释为语言现象,而传统的n-gram没有合理的语言解释,它们只是统计上的伪影。[1]
SN-gram在许多自然语言处理应用领域具有可用性,如机器学习中的分类任务[2]、信息抽取[3]、查询理解[4]、机器翻译[5]、问答系统[6]
输入参数
- text将文本作为一个句子输入。在
- meta_tag结果二元和三元组应与词性标记('pos')或依赖标记('dep')或原始SN gram('original')连接
- trigram_flag如果我们还需要包括从SN-gram派生的三元组('yes')或not('no')。默认为“是”
- nlp_model指定要使用的空间语言模型。默认为spacy英语语言模型en_core_web_sm。这对于能够使用英语以外的语言非常有用。在
输出
Dictionary对象,具有从SN gram派生的bigram和trigram的键值对。在
- SNBigram从SN gram派生的bigram的字典键
- SNTrigram从SN gram派生的trigram的字典键
怎么用呢?
fromSNgramExtractorimportSNgramExtractortext='Economic news have little effect on financial markets.'SNgram_obj=SNgramExtractor(text,meta_tag='original',trigram_flag='yes',nlp_model=None)output=SNgram_obj.get_SNgram()print(text)print('SNGram bigram:',output['SNBigram'])print('SNGram trigram:',output['SNTrigram'])print('-----------------------------------')text='every cloud has a silver lining'SNgram_obj=SNgramExtractor(text,meta_tag='original',trigram_flag='yes',nlp_model=None)output=SNgram_obj.get_SNgram()print(text)print('SNGram bigram:',output['SNBigram'])print('SNGram trigram:',output['SNTrigram'])print('-----------------------------------')nlp_french=spacy.load('fr_core_news_sm')text='Je voudrais réserver un hôtel à Rennes.'SNgram_obj=SNgramExtractor(text,meta_tag='original',trigram_flag='yes',nlp_model=nlp_french)output=SNgram_obj.get_SNgram()print(text)print('SNGram bigram:',output['SNBigram'])print('SNGram trigram:',output['SNTrigram'])
去哪里买?
pip install SNgramExtractor
依赖关系
参考文献
- Syntactic Dependency-Based N-grams as Classification Features作者:格里戈里·西多罗夫、弗朗西斯科·贝拉斯奎兹、埃夫斯塔提奥斯·斯塔马托斯、亚历山大·格尔布赫和丽利亚娜·查诺娜·赫尔南德斯
- Syntactic N-grams as Machine Learning Features for Natural Language Processing作者:格里戈里·西多罗夫、弗朗西斯科·贝拉斯奎兹、埃夫斯塔提奥斯·斯塔马托斯、亚历山大·盖尔布赫和丽利亚娜·查诺娜·赫尔南德斯
- Dependency-Based Open Information Extraction作者:巴勃罗·加马洛、马科斯·加西亚和圣地亚哥·费尔南德斯·兰扎
- Query Understanding Enhanced By Hierarchical Parsing Structures作者:刘晶晶、潘邦帕萨帕特、王怡宁、斯科特·西弗斯和吉姆·格拉斯
- Dependency Structure Trees in Syntax Based Machine Translation作者:Vamshi Ambati
- Question Answering Passage Retrieval Using Dependency Relations作者:崔杭、孙仁旭、李克雅、菅敏妍和蔡达生
- 项目
标签: