这是python的文本分区程序项目。
partitioner的Python项目详细描述
##概要
这是python分区程序项目。partitioner模块执行高级nlp任务,本质上等同于标记化(例如,将文本拆分为单词),并将泛化为多单词表达式(mwe)分段。不熟悉mwes的人的定义:
“句子中的一组标记,其连贯性强于普通的句法组合。”
因此,分词器可用于拆分一个或多个单词的文本“短语”。
##代码示例
要加载模块,请运行:
>>>>来自分区程序。工具导入分区程序
由于模块没有数据,运行通知分区将需要获取训练数据,这可以通过使用.download()方法获取:
>>>gt;pa=分区器()
>>>gt;pa.下载()
请注意,以上要求对提示作出响应。
另外,由于高性能版本的Partitioner使用了NLTK包的perceptronTagger()函数,请考虑运行:
>>>>导入NLTK
>>>>nltk.download()
下载所有nltk数据。
下载培训数据后,以下将加载所有英语数据集。这需要大量内存资源,但会产生高性能模型:
>;gt;gt;pa=分隔符(language=“en”,dopos=true,dolfd=true,maxgap=8,q={“type”:0.74,“pos”:0.71})
>;gt;gt;pa.partition(“这样的事情怎么会突然冒出来呢?“)
['怎么','',能','',什么','',像','',这个','',简单的','',弹出','','','',出人意料','?']
内存开销来自英语维基百科数据集。虽然庞大,但这个数据集提供了大量命名实体。要从特定英语源加载,请使用:
>;gt;gt;pa=分区器(language=“en”,source=“wiktionary”)
或其他数据集之一。要查看所有可用的数据集,请签出:
>>>>pa.数据集
要从特定语言加载所有集合(假设数据已添加到起始数据之外,起始数据来自Wikipedia),请使用:
>;gt;gt;pa=分割者(language=“es”,source=”)
##动机
partitioner项目的最初目标是创建一个快速、高效、通用的算法,将文本分割为尽可能小的有意义的单元,我们称之为短语。这基本上与用于综合mwe分割的nlp任务一致。此模块功能的参考资料可在以下文章中找到:
https://arxiv.org/pdf/1608.02025.pdf
##安装
在命令行中使用pip:
>>>>PIP安装分区程序
或者,如果从命令行使用git,则首先克隆存储库:
>>>>git克隆https://github.com/jakerylandwilliams/partitioner.git
然后导航存储库的主目录并运行:
>>>>sudo python setup.py安装
##贡献者
杰克·瑞兰·威廉姆斯和安迪·里根
##许可证
阿帕奇