文本字符串的预处理包

preprocessing的Python项目详细描述


Spotlight Data Logo

“预处理”

Documentation Status

小结

文本预处理包,以帮助开发Python3的nlp包。带着这个包裹你 可以按您喜欢的顺序而不是依赖于 任意NLP包。

安装

管道:

pip install preprocessing

pypi-您还可以从以下位置下载源发行版:

https://pypi.python.org/pypi/preprocessing/

然后您可以执行:

pip install <path_to_tar_file>

在tar文件上,或者

python setup.py install

在/内部,分别是要安装preprocessing的提取包。

示例

一旦安装了包,使用python3实现它的形式如下:

importpreprocessing.textasptextfrompreprocessing.textimportkeyword_tokenize,remove_unbound_punct,remove_urlstext_string="important string at: http://example.com"clean_string=ptext.preprocess_text(text_string,[remove_urls,remove_unbound_punct,keyword_tokenize])
>>> print(clean_string)
"important string"

是否应按不同的顺序执行功能(即关键字标记->;删除URL->; 移除未绑定的穿孔:

>>> print(clean_string)
"important string http example.com"

组织

这个包由一个模块组成,目前没有预定的子包。这个 预处理包依赖于用于标记器和stopwords的nltk。然而,忽略这一点, 该包仅具有来自Python 3的内置依赖项

贡献

如果您想贡献:

  • Check for open issues或打开新问题
  • 分叉预处理存储库以开始进行更改
  • 编写一个测试,显示错误已被修复或功能按预期工作
  • 发送拉取请求并记住将自己添加到CONTRIBUTORS.md

许可证

这个项目是根据麻省理工学院的许可证授权的(参见LICENSE

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
丢失线程时发生java异常   递归获取运行Java递归方法的最终else语句   没有正则表达式的Java字符串解析   带连接表的java JPA CriteriaBuilder   java如何在opengl中绘制许多小位图   java如何连接Genymotion和Appium?需要通过Genymotion emulator中的appium而不是安卓 avd打开安卓应用程序   java算法:整数太大   java排序“索引”数组   java将一个Linkedlist中的所有元素追加到另一个列表的末尾   读取pem格式的公钥时发生java错误   带有非OSGi应用程序的java Eclipse本机启动器   java Alljoyn交叉编译:Scons返回不存在的变量“Alljoyn_jar”   java自定义ID生成器并保存到文件   如何在java中解码Unicode编码?