文本字符串的预处理包
preprocessing的Python项目详细描述
“预处理”
小结
文本预处理包,以帮助开发Python3的nlp包。带着这个包裹你 可以按您喜欢的顺序而不是依赖于 任意NLP包。
安装
管道:
pip install preprocessing
pypi-您还可以从以下位置下载源发行版:
https://pypi.python.org/pypi/preprocessing/
然后您可以执行:
pip install <path_to_tar_file>
在tar文件上,或者
python setup.py install
在/内部,分别是要安装preprocessing的提取包。
示例
一旦安装了包,使用python3实现它的形式如下:
importpreprocessing.textasptextfrompreprocessing.textimportkeyword_tokenize,remove_unbound_punct,remove_urlstext_string="important string at: http://example.com"clean_string=ptext.preprocess_text(text_string,[remove_urls,remove_unbound_punct,keyword_tokenize])
>>> print(clean_string) "important string"
是否应按不同的顺序执行功能(即关键字标记->;删除URL->; 移除未绑定的穿孔:
>>> print(clean_string) "important string http example.com"
组织
这个包由一个模块组成,目前没有预定的子包。这个 预处理包依赖于用于标记器和stopwords的nltk。然而,忽略这一点, 该包仅具有来自Python 3的内置依赖项
贡献
如果您想贡献:
- Check for open issues或打开新问题
- 分叉预处理存储库以开始进行更改
- 编写一个测试,显示错误已被修复或功能按预期工作
- 发送拉取请求并记住将自己添加到CONTRIBUTORS.md
许可证
这个项目是根据麻省理工学院的许可证授权的(参见LICENSE)