自动提取领域主题词表

DomainThesaurus的Python项目详细描述


简介

domainthesaurus是一个python包,提供了提取特定于域的技术 常用于自然语言处理中的叙词表。以下是生成的 同义词表:

{ "internet explorer":
{"abbreviation":["ie"],
"synonym":["internet explorers", "internet explorere", "internetexplorer"],
"other":["firefox","chrome","opera"]}
}

除了特定领域的主题词表外,该软件包还提供了一些有用的模块。 例如,domain term用于提取特定于域的术语和worddiscrimination 用于区分单词(如缩写、同义词)。

领域特定术语

domainterm可以自动从域语料库中提取特定于域的术语。 例如,计算机科学和技术领域的javascript和 数学领域。

缩写和同义词

模块worddiscrimination可以将语义相关的词划分为不同的类型。 默认模块可以将语义相关词识别为缩写同义词。请注意, 在我们的模块中,同义词意味着两个词是语义相关的词,它们在形态学上是相似的。 例如,ieinternet explorer的缩写,javascriptsjavascript的同义词。

安装

domainthesauruspython 3.x下工作。请在python 3.x中使用它。 我们将尝试支持python 2.x

依赖性要求:

  • 根西姆(>;=3.6.0)
  • 网络x(>;=2.1)

domainthesaurus当前在pypi的存储库中可用,您可以 通过pip安装

pip install DomainThesaurus

如果愿意,可以克隆它并运行setup.py文件。使用以下命令 从github获取副本的命令:

git clone https://github.com/DunZhang/DomainSpecificThesaurus.git

用法

一个简单的例子:
>>> dst = DomainThesaurus(domain_specific_corpus_path="your domain specific corpus path",
>>>                       general_vocab_path="your general vocab path",
>>>                       outputDir="path of output")
>>> # extract domain thesauruss
>>> your_thesaurus = dst.extract()

如果没有任何数据集,则可以复制并运行以下代码: https://github.com/DunZhang/DomainSpecificThesaurus/blob/master/docs/notebooks/domain_thesaurus.ipynb。 此代码将自动为您下载数据集。 代码设计灵活,可以用自己的函数类替换默认函数类以获得更好的效果。 表演。 您可以在https://github.com/DunZhang/DomainSpecificThesaurus/blob/master/docs/notebooks中找到更多用法

致谢

在这个项目中,我们使用levenshtein distancegoogledrivedownloaderfromhttps://pypi.org/project/jellyfish/https://github.com/ndrplz/google-drive-downloader。谢谢他们的密码。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java中的开源字典组件   即使在成功执行删除查询之后,java更新的列表也不会显示在jsp页面中   java Apache:无法启动上下文路径/网站上的失败应用程序   java验证CSV中的特定列   对于具有专用内存的java应用程序,最小堆大小低于最大堆大小有意义吗?   java将数组中的值转换为多维数组   java在给定程序中,垃圾收集器在对象被取消引用之前正在运行。。。使用jre 7(32位)   java在运行时动态刷新文件夹   eclipse如何解决“java.net.BindException:地址已在使用:JVM_Bind”错误?   Java数组与数组   每次任务完成任务时,Java多线程都会安排任务   java部分编译时使用maven编织第三方jar   java Dokku单一回购中的多个应用程序   用apachevelocity生成javac/C++语言文件   java如何使用spring应用程序上下文中的属性文件实例化列表   java访问智能卡文件结构   具有GlobalMethodSecurity的java自定义UserDetailService循环引用   java如何集成Spring和JSF