快速文本处理
retexto的Python项目详细描述
# reTexto
Fast text processing for python
### Run
cd /[project_path]
docker build -t retexto .
docker run -v $(pwd):/retexto:rw -it retexto bash
### Test
invoke test
### Work in
docker run -v $(pwd):/retexto:rw -it retexto bash
invoke test
### 发布
调用publishtest…..一切都好吗?
invoke publish
>如果你的主要用途是什么,我需要这个www.google.com,我需要这个www.google.com,我需要这个www.google.com,我需要这个www.google.com,http://github.com<;br>;
<;strong>;用户名:arlos;lt;strong>;
我是来自佩劳尔的朋友,我来自佩劳尔的朋友。给jajajajaja发短信很有趣looveee thiis
@florenciaflor19 si!!!Sévo…胡安娜\
微笑!哈哈,jejeje jojojo jujuju jijijijajaja'
text=retext(s)
s=text.remove_html()\
.remove_insertions()\
.remove_tags()\
.remove_smiles(by='smileing')\
.convert_specials()\
.convert_emoji.remove_nochars(preserve_tilde=true)\
。remove_url()\
。remove_duplicate(r='a-jp-z')\
。remove_duplicate_元音()\
。remove_duplicate_辅音()\
。remove_标点符号()\
。remove_multispaces()\
。lower()\
。删除stopWords()\
。拆分单词(uniques=true)
打印
['username'、'from'、'love'、'i'、'ned'、'funy'、'juana'、'vo'、'this'、'si'、'im'、'se'、'peru'、'smile'、'so'、'smile'、'carlos']
Fast text processing for python
### Run
cd /[project_path]
docker build -t retexto .
docker run -v $(pwd):/retexto:rw -it retexto bash
### Test
invoke test
### Work in
docker run -v $(pwd):/retexto:rw -it retexto bash
invoke test
### 发布
调用publishtest…..一切都好吗?
invoke publish
>如果你的主要用途是什么,我需要这个www.google.com,我需要这个www.google.com,我需要这个www.google.com,我需要这个www.google.com,http://github.com<;br>;
<;strong>;用户名:arlos;lt;strong>;
我是来自佩劳尔的朋友,我来自佩劳尔的朋友。给jajajajaja发短信很有趣looveee thiis
@florenciaflor19 si!!!Sévo…胡安娜\
微笑!哈哈,jejeje jojojo jujuju jijijijajaja'
text=retext(s)
s=text.remove_html()\
.remove_insertions()\
.remove_tags()\
.remove_smiles(by='smileing')\
.convert_specials()\
.convert_emoji.remove_nochars(preserve_tilde=true)\
。remove_url()\
。remove_duplicate(r='a-jp-z')\
。remove_duplicate_元音()\
。remove_duplicate_辅音()\
。remove_标点符号()\
。remove_multispaces()\
。lower()\
。删除stopWords()\
。拆分单词(uniques=true)
打印
['username'、'from'、'love'、'i'、'ned'、'funy'、'juana'、'vo'、'this'、'si'、'im'、'se'、'peru'、'smile'、'so'、'smile'、'carlos']