用于关键字短语标记的python包。
kleis-keyphrase-extraction的Python项目详细描述
kleis:python包,用于提取关键字短语
kleis是一个python包,用于在科学文本中标记关键短语。它以古希腊语单词κλείς命名。
安装
PIP(简单快速)
$ pip install kleis-keyphrase-extraction
自制车轮
$ git clone https://github.com/sdhdez/kleis-keyphrase-extraction.git
$ cd kleis-keyphrase-extraction/
$ python setup.py sdist bdist_wheel
$ pip install dist/kleis_keyphrase_extraction-0.1.X.devX-py3-none-any.whl
用相应的值替换x。
注意:这个方法不包括预先训练的模型,你应该下载语料库以便它可以训练。
用法
示例here
数据集
这个软件包已经包含了一些预先训练过的模型,但是如果你想自己测试,你应该下载这些数据集。
从SemEval 2017 Task 10下载并解压缩到“~/kleis_data/corpus/semeval2017-task10”或“./kleis_data/corpus/semeval2017-task10”
$ ls ~/kleis_data/corpus/semeval2017-task10
brat_config eval.py __MACOSX README_data.md scienceie2017_test_unlabelled train2 xml_utils.py
dev eval_py27.py README_data_dev.md README.md semeval_articles_test util.py zips
测试
您可以使用keyphrase-extraction-example.py
$ python keyphrase-extraction-example.py
另一个例子请参见here。
要求
- python 3(已测试:3.6.5)
- NLTK(带语料库)(测试:3.2.5)
- python crfsuite(测试:0.9.5)
可选
笔记本电脑
要运行此存储库中的noteoks,请安装jupyterlab。
$ pip install jupyterlab
然后运行以下命令。
jupyter lab
更多信息
该方法利用crfs模型(条件随机场)对文本中的关键短语进行标记,利用部分特定标记序列筛选出的候选关键词对模型进行训练。它基于所描述的方法here,但具有更好的性能。请随时向我们发送意见或问题。
在这个版本中,我们使用python-crfsuite。