简单的自动文本预处理器

nltp的Python项目详细描述


自然语言文本预处理器(nltp)

一个简化的软件包,用于自动化文本预处理活动,如词义化、标记化、删除停止字、使用正则表达式从文本中删除某些模式。在后台工作,这个包利用NLTK库进行文本清理活动。在

安装

要求:

  • Python 3.7或更高版本
  • NLTK公司

安装最新版本:

pip install nltp

从源安装:

^{pr2}$

用法:基础知识

下面是如何使用nltp执行文本清理

首先,我们将列表中的文本传递给实例化的预处理器对象,因为它接受参数文本。在

这几行代码返回实例化文本预处理器时传递的文本的标记化版本。在

fromnltpimportPreprocessortext=["I like eat delicious food","That's I'm cooking food myself, case '10 Best Foods' helps lot, also 'Best Before (Shelf Life)'"]output=Preprocessor(text)output.token()

您可以检索索引为0的文本:

output.token(1)

下一步,您可以获得一个列表中传递的文本的干净版本,删除了lemmatization、stop word和文本中不需要的模式。在

可以修改的参数是stop_wordspatterns。在

output=Preprocessor(text,stop_words=[USERDEFINED],pattern=[USERDEFINED])

注意:拥有这些参数的目的是绕过删除非字母表、重复单词序列和用户名(用@User标识)的默认参数。在

output=Preprocessor(text)output.text_cleaner()

注意:使用输出。您可以获得传递的默认停止字、模式和文本

output=Preprocessor(text)output.patternsoutput.stop_wordsoutput.text

引文

BibTex入口:

@misc{omalley2019kerastuner,title={Natural Language Text Preprocessor {nltp}},author={ Ufumaka Isreal},year=2020,howpublished={\url{https://github.com/izzyx6/nltp}}}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
HTTP标头的java InputStream未终止   java测试SpringWebListener   具有定义的替换编号Java的regex ReplaceAll   在java中使用contains()方法   java在选择查询中使用JoinColumn字段   具有用户的java Start-stop demon不是以给定用户启动   java glBufferData生成GL\u无效\u操作   java中循环代码的循环   Java位无符号移位(>>>>)会产生奇怪的结果   java HQL使用点分隔符从select获取结果   条纹、弹簧、玩耍(或?):使用哪种高性能Java框架?   广播接收机中的java停止服务   java回收器视图占据整个屏幕。不在上面显示我的UI元素   java使MySQL查询更快   java MappedByteBuffer查询   java递归算法问题