这是python的文本分区程序项目。

partitioner的Python项目详细描述


##概要

这是python分区程序项目。partitioner模块执行高级nlp任务,本质上等同于标记化(例如,将文本拆分为单词),并将泛化为多单词表达式(mwe)分段。不熟悉mwes的人的定义:

“句子中的一组标记,其连贯性强于普通的句法组合。”

因此,分词器可用于拆分一个或多个单词的文本“短语”。

##代码示例

要加载模块,请运行:

>>>>来自分区程序。工具导入分区程序

由于模块没有数据,运行通知分区将需要获取训练数据,这可以通过使用.download()方法获取:

>>>gt;pa=分区器()

>>>gt;pa.下载()

请注意,以上要求对提示作出响应。

另外,由于高性能版本的Partitioner使用了NLTK包的perceptronTagger()函数,请考虑运行:

>>>>导入NLTK

>>>>nltk.download()

下载所有nltk数据。

下载培训数据后,以下将加载所有英语数据集。这需要大量内存资源,但会产生高性能模型:

>;gt;gt;pa=分隔符(language=“en”,dopos=true,dolfd=true,maxgap=8,q={“type”:0.74,“pos”:0.71})

>;gt;gt;pa.partition(“这样的事情怎么会突然冒出来呢?“)

['怎么','',能','',什么','',像','',这个','',简单的','',弹出','','','',出人意料','?']

内存开销来自英语维基百科数据集。虽然庞大,但这个数据集提供了大量命名实体。要从特定英语源加载,请使用:

>;gt;gt;pa=分区器(language=“en”,source=“wiktionary”)

或其他数据集之一。要查看所有可用的数据集,请签出:

>>>>pa.数据集

要从特定语言加载所有集合(假设数据已添加到起始数据之外,起始数据来自Wikipedia),请使用:

>;gt;gt;pa=分割者(language=“es”,source=”)

##动机

partitioner项目的最初目标是创建一个快速、高效、通用的算法,将文本分割为尽可能小的有意义的单元,我们称之为短语。这基本上与用于综合mwe分割的nlp任务一致。此模块功能的参考资料可在以下文章中找到:

https://arxiv.org/pdf/1608.02025.pdf

##安装

在命令行中使用pip:

>>>>PIP安装分区程序

或者,如果从命令行使用git,则首先克隆存储库:

>>>>git克隆https://github.com/jakerylandwilliams/partitioner.git

然后导航存储库的主目录并运行:

>>>>sudo python setup.py安装

##贡献者

杰克·瑞兰·威廉姆斯和安迪·里根

##许可证

阿帕奇

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将Scanner对象作为构造函数参数传递给UserInterface类   spring未能启动bean“subtocolWebSocketHandler”;嵌套的例外是java。lang.IllegalArgumentException:没有处理程序   Java EE应用程序中后台服务的多线程Java线程(设置守护进程和优先级)?   java Pull to refresh返回列表的第一个位置   无法将comparator类转换为java。可比的   java将json从servlet传递到dojo   JavaHibernate:将子类实例转换为超类实例   java警告调用servlet类时非法反射访问   java静态变量值   java@Entity和@embeddeble之间有什么区别   java将作业配置导入公共作业配置类(注释配置)   sql公共表表达式(以values语句开头)在java中给出错误   java在ImageJ中使用ImageProcessor   java PostgreSQL executeBatch()会随着时间的推移而变慢   java在安卓中以表格形式排列sqllite表数据?   java中SVG的swing定制呈现   java删除与另一个实体映射的实体   java何时/如何添加ListView适配器,使用back按钮恢复它?(片段)   java为什么IBinder和Binder之间的类型转换不是非法的?   java在方法参数列表中使用ArrayList或List