从命令行进行简单的文本分析

textkit的Python项目详细描述


从命令行进行简单的文本分析。

主页:http://learntextvis.github.io/textkit/

关于

textkit是一系列小型的、unix风格的工具,为 把文本当作数据处理。

把textkit看作是基本的自然语言处理能力——从命令行开始。

text套件功能

以下是一些很酷的东西,你可以用textkit。

将文档转换为一组单词标记,并删除标记中的所有标点符号:

textkittext2wordsinput.txt|textkitfilterpunc

计算文本中最常用的单词数:

textkittext2wordsalice.txt|textkitcount--limit20

执行相同操作,但删除标点符号:

textkittext2wordsalice.txt|textkitfilterpunc|textkitcount--limit20

安装

$ pip install -U textkit
$ textkit --help

dev安装

要在本地测试,请克隆repo:

git clone git@github.com:learntextvis/textkit.git

创建本地虚拟环境或conda环境。

下面是我如何创建用于安装和测试textkit的本地conda环境:

conda create --name textkit nltk

source activate textkit

然后我进入textkit目录安装它的需求

cd textkit

pip install -r requirements.txt

最后,我使用--editable标志安装了本地版本的textkit:

pip install --editable .

示例

请参阅Quickstart guide上的更多示例。

要求

  • python>;=2.6或>;=3.3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
orm如何在Java中实现规范化映射?   java以编程方式修改Xtext生成的Mwe2工作流   java正在覆盖外部文件中的现有数据,如何停止?   java在ANTLR BNF语法符号中epsilon的等价物是什么?   java如何使用Hibernate@Anyrelated注释?   代码生成生成java类并在运行时加载它   java Maven无法在本地jar文件中收集依赖项   java NetBeans IDE 8.2不显示错误消息   java Selenium web驱动程序找不到元素   java如何修复“拒绝访问属性”invoke“”的权限?   JavaApacheJClouds,从比日期更早的blob中删除blob的最佳方法   java如何比较和排序树集中的项目?   使用JavaSpring和无头/解耦CMS   java使用swagercodegen在不同的类中生成端点   Java外部Keylistener没有响应