用于数据清理、文本预处理的包装器库

maleo的Python项目详细描述


马莱奥

用于文本清理的包装库,NLP中的预处理

功能概述

- Scanner : get insight about your text dataset (ex: number of chars, words, emojis, etc)
- Remove hyperlink, punctuation, stopword, emoticon, etc
- Extract hashtags, price from text
- Convert email, phone number, date to <TAG>
- Convert Indonesian slang to formal word
- Convert emoji to word
- Convert word to number

安装

^{pr2}$

入门

frommaleo.wizardimportWizardwiz=Wizard()wiz.scanner(df,'text')wiz.emoji_to_word(df.text)wiz.slang_to_formal(df.text)

实例属性

['scanner',
 'rm_multiple_space',
 'rm_link',
 'rm_punc',
 'rm_char',
 'rm_html',
 'rm_non_ascii',
 'rm_stopword',
 'rm_emoticon',
 'word_to_number',
 'get_hashtag',
 'get_price',
 'email_to_tag',
 'date_to_tag',
 'phone_num_to_tag',
 'slang_to_formal',
 'emoji_to_word']

投稿人:

  • 鲁本·斯特凡纳斯

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java我的计时器(scheduleAtFixedRate)不循环   如何在Java中实现过滤迭代器?   java如何在不从本地xml、csv文件访问API的情况下将变量发布到php站点?   SuiteClasses语法的Java JUnit类数组   java从URLConnection读取二进制文件   java在Android Studio中发送加密文本时失败   Android:最近最少使用(LRU)算法在java中的实现?   java Selenium WebDriver无法打开Firefox配置文件   java如何处理带有嵌套抽象类的GSON?   java类型通知的方法SetLateStevenInfo(GcmMessageHandler,String,String,PendingContent)未定义   java Apple或Mac Mail会打开所有附件图像,即使它们已嵌入   java如何解析下面的xml代码?   java如何创建特定于API级别的UI(针对平板电脑和Android旧版本的不同UI,针对同一应用)?   servlet的通配符路径?