用于数据清理、文本预处理的包装器库

maleo的Python项目详细描述


马莱奥

用于文本清理的包装库,NLP中的预处理

功能概述

- Scanner : get insight about your text dataset (ex: number of chars, words, emojis, etc)
- Remove hyperlink, punctuation, stopword, emoticon, etc
- Extract hashtags, price from text
- Convert email, phone number, date to <TAG>
- Convert Indonesian slang to formal word
- Convert emoji to word
- Convert word to number

安装

^{pr2}$

入门

frommaleo.wizardimportWizardwiz=Wizard()wiz.scanner(df,'text')wiz.emoji_to_word(df.text)wiz.slang_to_formal(df.text)

实例属性

['scanner',
 'rm_multiple_space',
 'rm_link',
 'rm_punc',
 'rm_char',
 'rm_html',
 'rm_non_ascii',
 'rm_stopword',
 'rm_emoticon',
 'word_to_number',
 'get_hashtag',
 'get_price',
 'email_to_tag',
 'date_to_tag',
 'phone_num_to_tag',
 'slang_to_formal',
 'emoji_to_word']

投稿人:

  • 鲁本·斯特凡纳斯

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
检查java中两个链表之间的子集   java仅在findViewById()下显示一个ImageButton   在Java Graphics2D中,文本如何在矩形上居中对齐?   java需要一个用于电子表格计算器的正则表达式   ^java中的运算符   java通过一些属性配置文件根据环境动态更改wsdl端点URL   java Ebean/Play框架关系未更新   集合如何将POJO列表转换为Java流中的映射<String,List>?   java为什么JFrame不显示整个图像?   java如何将调用静态导入的泛型方法的结果传递给另一个方法?   迭代器或foreach中的java延迟   需要java socket logback日志接收器   在Java中初始化Map的静态数组   雅加达邮件Java MimeMail:解码后获得额外字符   java为什么这个xmldom解析器不能正确解析rtept、name和cmt标记?   java如何刷新Log4J2中的异步记录器(带中断器)   java使用构建插件pom生成的jar。xml作为同一pom中的依赖项   java基于位置的序列ADT如何在O(1)时间内插入元素?   java ORM实体与DDD实体   Java对象分配