从命令行进行简单的文本分析
textkit的Python项目详细描述
从命令行进行简单的文本分析。
主页:http://learntextvis.github.io/textkit/
关于
textkit
是一系列小型的、unix风格的工具,为
把文本当作数据处理。
把textkit看作是基本的自然语言处理能力——从命令行开始。
text套件功能
以下是一些很酷的东西,你可以用textkit。
将文档转换为一组单词标记,并删除标记中的所有标点符号:
textkittext2wordsinput.txt|textkitfilterpunc
计算文本中最常用的单词数:
textkittext2wordsalice.txt|textkitcount--limit20
执行相同操作,但删除标点符号:
textkittext2wordsalice.txt|textkitfilterpunc|textkitcount--limit20
安装
$ pip install -U textkit $ textkit --help
dev安装
要在本地测试,请克隆repo:
git clone git@github.com:learntextvis/textkit.git
创建本地虚拟环境或conda
环境。
下面是我如何创建用于安装和测试textkit的本地conda
环境:
conda create --name textkit nltk source activate textkit
然后我进入textkit
目录安装它的需求
cd textkit pip install -r requirements.txt
最后,我使用--editable
标志安装了本地版本的textkit:
pip install --editable .
示例
请参阅Quickstart guide上的更多示例。
要求
- python>;=2.6或>;=3.3