用于关键字短语标记的python包。

kleis-keyphrase-extraction的Python项目详细描述


kleis:python包,用于提取关键字短语

kleis是一个python包,用于在科学文本中标记关键短语。它以古希腊语单词κλείς命名。

安装

PIP(简单快速)

$ pip install kleis-keyphrase-extraction

自制车轮

$ git clone https://github.com/sdhdez/kleis-keyphrase-extraction.git
$ cd kleis-keyphrase-extraction/
$ python setup.py sdist bdist_wheel
$ pip install dist/kleis_keyphrase_extraction-0.1.X.devX-py3-none-any.whl

用相应的值替换x。

注意:这个方法不包括预先训练的模型,你应该下载语料库以便它可以训练。

用法

示例here

数据集

这个软件包已经包含了一些预先训练过的模型,但是如果你想自己测试,你应该下载这些数据集。

SemEval 2017 Task 10下载并解压缩到“~/kleis_data/corpus/semeval2017-task10”或“./kleis_data/corpus/semeval2017-task10”

$ ls ~/kleis_data/corpus/semeval2017-task10

brat_config  eval.py       __MACOSX            README_data.md  scienceie2017_test_unlabelled  train2   xml_utils.py
dev          eval_py27.py  README_data_dev.md  README.md       semeval_articles_test          util.py  zips

测试

您可以使用keyphrase-extraction-example.py

$ python keyphrase-extraction-example.py

另一个例子请参见here

要求

  • python 3(已测试:3.6.5)
  • NLTK(带语料库)(测试:3.2.5)
  • python crfsuite(测试:0.9.5)

可选

笔记本电脑

要运行此存储库中的noteoks,请安装jupyterlab。

$ pip install jupyterlab

然后运行以下命令。

jupyter lab

更多信息

该方法利用crfs模型(条件随机场)对文本中的关键短语进行标记,利用部分特定标记序列筛选出的候选关键词对模型进行训练。它基于所描述的方法here,但具有更好的性能。请随时向我们发送意见或问题。

在这个版本中,我们使用python-crfsuite

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
SpringWeb中的java更新/通知其他用户   java Lambda性能测试   java Bukkit插件:空白符号   java在按下按钮后改变彩色正方形的大小   javajavac相当于“D”?   java序列化接口   属性无法从属性文件返回值   java我应该使用什么查询来使用Jsoup从html页面提取符号?   java Android Studio项目结构问题   JAVA方法和返回值/公共变量(基础)   java将NativeQuery映射到POJO   java如何在下面的程序中消除NumberFormatException?   在java中获取链表与数组中的对象   java Android Firebase将用户发送到聊天室