Python partitioner包_程序模块 - PyPI

这是python的文本分区程序项目。

partitioner的Python项目详细描述

##概要

这是python分区程序项目。partitioner模块执行高级nlp任务，本质上等同于标记化（例如，将文本拆分为单词），并将泛化为多单词表达式（mwe）分段。不熟悉mwes的人的定义：

“句子中的一组标记，其连贯性强于普通的句法组合。”

因此，分词器可用于拆分一个或多个单词的文本“短语”。

##代码示例

要加载模块，请运行：

>>>>来自分区程序。工具导入分区程序

由于模块没有数据，运行通知分区将需要获取训练数据，这可以通过使用.download（）方法获取：

>>>gt；pa=分区器（）

>>>gt；pa.下载（）

请注意，以上要求对提示作出响应。

另外，由于高性能版本的Partitioner使用了NLTK包的perceptronTagger（）函数，请考虑运行：

>>>>导入NLTK

>>>>nltk.download（）

下载所有nltk数据。

下载培训数据后，以下将加载所有英语数据集。这需要大量内存资源，但会产生高性能模型：

>；gt；gt；pa=分隔符（language=“en”，dopos=true，dolfd=true，maxgap=8，q={“type”：0.74，“pos”：0.71}）

>；gt；gt；pa.partition（“这样的事情怎么会突然冒出来呢？“）

['怎么'，''，能'，''，什么'，''，像'，''，这个'，''，简单的'，''，弹出'，''，''，''，出人意料'，'？']

内存开销来自英语维基百科数据集。虽然庞大，但这个数据集提供了大量命名实体。要从特定英语源加载，请使用：

>；gt；gt；pa=分区器（language=“en”，source=“wiktionary”）

或其他数据集之一。要查看所有可用的数据集，请签出：

>>>>pa.数据集

要从特定语言加载所有集合（假设数据已添加到起始数据之外，起始数据来自Wikipedia），请使用：

>；gt；gt；pa=分割者（language=“es”，source=”）

##动机

partitioner项目的最初目标是创建一个快速、高效、通用的算法，将文本分割为尽可能小的有意义的单元，我们称之为短语。这基本上与用于综合mwe分割的nlp任务一致。此模块功能的参考资料可在以下文章中找到：

https://arxiv.org/pdf/1608.02025.pdf

##安装

在命令行中使用pip:

>>>>PIP安装分区程序

或者，如果从命令行使用git，则首先克隆存储库：

>>>>git克隆https://github.com/jakerylandwilliams/partitioner.git

然后导航存储库的主目录并运行：

>>>>sudo python setup.py安装

##贡献者

杰克·瑞兰·威廉姆斯和安迪·里根

##许可证

阿帕奇

欢迎加入QQ群-->： 979659372

partitioner 0.1.2

partitioner的Python项目详细描述

推荐PyPI第三方库

large-image-source-mapnik

dga

pyassuan

oca

LDTk

glog2

pybbcode

optimal

rsl.upnp

es-search-exporter

cs.pfg.mipago

test-pkg-evinlort

vdom

iota_balance_change_alert

populous

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

partitioner 0.1.2

partitioner的Python项目详细描述

推荐PyPI第三方库

large-image-source-mapnik

dga

pyassuan

oca

LDTk

glog2

pybbcode

optimal

rsl.upnp

es-search-exporter

cs.pfg.mipago

test-pkg-evinlort

vdom

iota_balance_change_alert

populous

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签