用于数据清理、文本预处理的包装器库
maleo的Python项目详细描述
马莱奥
用于文本清理的包装库,NLP中的预处理
功能概述
- Scanner : get insight about your text dataset (ex: number of chars, words, emojis, etc)
- Remove hyperlink, punctuation, stopword, emoticon, etc
- Extract hashtags, price from text
- Convert email, phone number, date to <TAG>
- Convert Indonesian slang to formal word
- Convert emoji to word
- Convert word to number
安装
^{pr2}$入门
frommaleo.wizardimportWizardwiz=Wizard()wiz.scanner(df,'text')wiz.emoji_to_word(df.text)wiz.slang_to_formal(df.text)
实例属性
['scanner',
'rm_multiple_space',
'rm_link',
'rm_punc',
'rm_char',
'rm_html',
'rm_non_ascii',
'rm_stopword',
'rm_emoticon',
'word_to_number',
'get_hashtag',
'get_price',
'email_to_tag',
'date_to_tag',
'phone_num_to_tag',
'slang_to_formal',
'emoji_to_word']
投稿人:
- 鲁本·斯特凡纳斯
- 项目
标签: