自动提取领域主题词表
DomainThesaurus的Python项目详细描述
简介
domainthesaurus是一个python包,提供了提取特定于域的技术 常用于自然语言处理中的叙词表。以下是生成的 同义词表:
{ "internet explorer": {"abbreviation":["ie"], "synonym":["internet explorers", "internet explorere", "internetexplorer"], "other":["firefox","chrome","opera"]} }
除了特定领域的主题词表外,该软件包还提供了一些有用的模块。 例如,domain term用于提取特定于域的术语和worddiscrimination 用于区分单词(如缩写、同义词)。
领域特定术语
domainterm可以自动从域语料库中提取特定于域的术语。 例如,计算机科学和技术领域的javascript和 数学领域。
缩写和同义词
模块worddiscrimination可以将语义相关的词划分为不同的类型。 默认模块可以将语义相关词识别为缩写和同义词。请注意, 在我们的模块中,同义词意味着两个词是语义相关的词,它们在形态学上是相似的。 例如,ie是internet explorer的缩写,javascripts是 javascript的同义词。
安装
domainthesaurus在python 3.x下工作。请在python 3.x中使用它。 我们将尝试支持python 2.x。
依赖性要求:
- 根西姆(>;=3.6.0)
- 网络x(>;=2.1)
domainthesaurus当前在pypi的存储库中可用,您可以 通过pip安装
pip install DomainThesaurus
如果愿意,可以克隆它并运行setup.py文件。使用以下命令 从github获取副本的命令:
git clone https://github.com/DunZhang/DomainSpecificThesaurus.git
用法
- 一个简单的例子:
>>> dst = DomainThesaurus(domain_specific_corpus_path="your domain specific corpus path", >>> general_vocab_path="your general vocab path", >>> outputDir="path of output") >>> # extract domain thesauruss >>> your_thesaurus = dst.extract()
如果没有任何数据集,则可以复制并运行以下代码:
https://github.com/DunZhang/DomainSpecificThesaurus/blob/master/docs/notebooks/domain_thesaurus.ipynb。
此代码将自动为您下载数据集。
代码设计灵活,可以用自己的
致谢
在这个项目中,我们使用levenshtein distance和googledrivedownloaderfromhttps://pypi.org/project/jellyfish/ 和https://github.com/ndrplz/google-drive-downloader。谢谢他们的密码。