关键词抽取python包

yake的Python项目详细描述


一个又一个关键字提取程序(yake)


新存储库
----


代码已移动到https://github.com/liaad/yake。
请使用github存储库中可用的代码。


安装
----




不推荐的版本
----


使用文本特征自动提取关键字的方法

*文档:https://pypi.python.org/pypi/yake.


对于个人和组织来说,随着信息的复杂性和规模的增长。这项任务需要自动化,以便能够及时、充分地处理文本,因此出现了自动关键词提取工具。尽管取得了进展,但显然缺乏多语种在线工具来自动从单个文档中提取关键字。牦牛!是一种新的基于特征的多语种关键词提取系统,支持不同大小、领域或语言的文本。不像其他方法,牦牛!不依赖词典和词表,也不受任何语料库的训练。相反,它采用了一种无监督的方法,该方法基于从文本中提取的特征,从而使其适用于用不同语言编写的文档,而无需进一步了解。这对大量任务和大量限制或限制访问培训语料库的情况都是有益的。




A.(2018)。
一种基于文本特征的单文档关键词自动提取方法
第40届欧洲信息检索会议论文集(ECir'18),法国格勒诺布尔。3月26-29日。


Campos,R.,Mangaravite,V.,Pasquali,A.,Jorge,A.,Nunes,C.,和Jatowt,A.(2018年)。
Yake!独立于集合的自动关键词抽取器
第40届欧洲信息检索会议记录(ECir'18),法国格勒诺布尔。3月26日-29日



----
python3




installation
----


>在终端上安装yake::


>使用pip升级::


usage
----


行:

yake——输入文件[文本文件]——语言en——ngram大小3



python上的使用方法:


import yake


text-content=“
消息来源告诉我们,谷歌正在收购kaggle,一个承载数据科学和机器学习的平台。有关交易的细节仍有些模糊,但考虑到谷歌本周将在旧金山主办其云计算下一届会议,官方宣布最早可能在明天。通过电话联系到Kaggle联合创始人首席执行官安东尼•戈德布鲁姆(Anthony Goldbloom),他拒绝否认收购正在进行。谷歌本身拒绝“对谣言发表评论”。


n=3,deduplim=0.8,windowsSize=2,top=20)
关键字=custom_kwextractor.extract_关键字(文本内容)

r/>打印(kw)



将新版本上载到pip
----


run::

>;使dist
>;python setup.py sdist upload-r https://upload.pypi.org/legacy/


欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java通过两个整数数组对正整数和负整数进行排序   java无参数和默认构造函数混淆   java加载文件MD5的最快方法是什么?   java如何在变量声明中使用带“e”的float   java将项目导入到STS iMac   java在使用图像时旋转图像   java Break语句不起作用   java提供了错误类型Spring的id   java如何为多个变量设置相同的函数属性?   JavaMaven:如何添加编译阶段后生成的资源   java HashMap已损坏/性能问题   java Hibernate SQL中间表b/w父表和子表(不同类型)   java PDFbox找不到字体:/Helv   Java:向自实现的双链接列表添加排序函数   为使用Java BouncyCastle生成的X509Certificate提供密钥使用的安全性   java Hibernate在读写方面的性能   C#相当于Java的DataOutputStream?