这是python的文本分区程序项目。

partitioner的Python项目详细描述


##概要

这是python分区程序项目。partitioner模块执行高级nlp任务,本质上等同于标记化(例如,将文本拆分为单词),并将泛化为多单词表达式(mwe)分段。不熟悉mwes的人的定义:

“句子中的一组标记,其连贯性强于普通的句法组合。”

因此,分词器可用于拆分一个或多个单词的文本“短语”。

##代码示例

要加载模块,请运行:

>>>>来自分区程序。工具导入分区程序

由于模块没有数据,运行通知分区将需要获取训练数据,这可以通过使用.download()方法获取:

>>>gt;pa=分区器()

>>>gt;pa.下载()

请注意,以上要求对提示作出响应。

另外,由于高性能版本的Partitioner使用了NLTK包的perceptronTagger()函数,请考虑运行:

>>>>导入NLTK

>>>>nltk.download()

下载所有nltk数据。

下载培训数据后,以下将加载所有英语数据集。这需要大量内存资源,但会产生高性能模型:

>;gt;gt;pa=分隔符(language=“en”,dopos=true,dolfd=true,maxgap=8,q={“type”:0.74,“pos”:0.71})

>;gt;gt;pa.partition(“这样的事情怎么会突然冒出来呢?“)

['怎么','',能','',什么','',像','',这个','',简单的','',弹出','','','',出人意料','?']

内存开销来自英语维基百科数据集。虽然庞大,但这个数据集提供了大量命名实体。要从特定英语源加载,请使用:

>;gt;gt;pa=分区器(language=“en”,source=“wiktionary”)

或其他数据集之一。要查看所有可用的数据集,请签出:

>>>>pa.数据集

要从特定语言加载所有集合(假设数据已添加到起始数据之外,起始数据来自Wikipedia),请使用:

>;gt;gt;pa=分割者(language=“es”,source=”)

##动机

partitioner项目的最初目标是创建一个快速、高效、通用的算法,将文本分割为尽可能小的有意义的单元,我们称之为短语。这基本上与用于综合mwe分割的nlp任务一致。此模块功能的参考资料可在以下文章中找到:

https://arxiv.org/pdf/1608.02025.pdf

##安装

在命令行中使用pip:

>>>>PIP安装分区程序

或者,如果从命令行使用git,则首先克隆存储库:

>>>>git克隆https://github.com/jakerylandwilliams/partitioner.git

然后导航存储库的主目录并运行:

>>>>sudo python setup.py安装

##贡献者

杰克·瑞兰·威廉姆斯和安迪·里根

##许可证

阿帕奇

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在java中的字符串字符下打印星号(*)   java在比较数据后得到错误的结果   java如何在使用JSP创建的网站中创建父子关系和处理?   java配置单元UDF:无法执行求值方法   java GAE项目Intellij远程调试在关闭时不释放端口   java按钮上的放大和缩小功能点击JfreeChart折线图?   java Selenium Chrome Web驱动程序SessionNotCreatedException   java由ADFactoryBuilder生成的线程工厂是线程安全的吗?   java将字符串[]传递给另一个类Android(使用intent)   我为什么要嘲笑java?   JavaLiferay门户不将对象从流程阶段发送到jsp   java我想在单击每个树节点时将要添加的信息放入jpanel jscrollpane中   在Java中模拟数组引用(即对引用的引用)的按引用传递   Jackson将JSON属性反序列化为不同的Java对象   java使用JSP/servlet在网页上显示Excel工作表?   仿射变换Java:使用仿射变换时游戏速度减慢   Servlet JBoss AS 7的java EJB注入   在Oracle数据库中使用Java的plsql   java管理Maven项目中的库依赖项   JavaEclipseLink(JPA)异常:复合主键@JoinColumn