简单的自动文本预处理器
nltp的Python项目详细描述
自然语言文本预处理器(nltp)
一个简化的软件包,用于自动化文本预处理活动,如词义化、标记化、删除停止字、使用正则表达式从文本中删除某些模式。在后台工作,这个包利用NLTK库进行文本清理活动。在
安装
要求:
- Python 3.7或更高版本
- NLTK公司
安装最新版本:
pip install nltp
从源安装:
^{pr2}$用法:基础知识
下面是如何使用nltp执行文本清理
首先,我们将列表中的文本传递给实例化的预处理器对象,因为它接受参数文本。在
这几行代码返回实例化文本预处理器时传递的文本的标记化版本。在
fromnltpimportPreprocessortext=["I like eat delicious food","That's I'm cooking food myself, case '10 Best Foods' helps lot, also 'Best Before (Shelf Life)'"]output=Preprocessor(text)output.token()
您可以检索索引为0的文本:
output.token(1)
下一步,您可以获得一个列表中传递的文本的干净版本,删除了lemmatization、stop word和文本中不需要的模式。在
可以修改的参数是stop_words
和patterns
。在
output=Preprocessor(text,stop_words=[USERDEFINED],pattern=[USERDEFINED])
注意:拥有这些参数的目的是绕过删除非字母表、重复单词序列和用户名(用@User标识)的默认参数。在
output=Preprocessor(text)output.text_cleaner()
注意:使用输出。您可以获得传递的默认停止字、模式和文本
output=Preprocessor(text)output.patternsoutput.stop_wordsoutput.text
引文
BibTex入口:
@misc{omalley2019kerastuner,title={Natural Language Text Preprocessor {nltp}},author={ Ufumaka Isreal},year=2020,howpublished={\url{https://github.com/izzyx6/nltp}}}
- 项目
标签: