优雅的tweet预处理

tweet-preprocessor的Python项目详细描述


预处理器

https://travis-ci.org/s/preprocessor.svg?branch=master

预处理器是用python编写的tweet数据的预处理库。

在建立基于tweet数据的机器学习系统时,需要进行预处理。这个库使清理、解析或标记tweets变得容易。

功能

当前支持清理、标记化和解析:

  • 网址
  • 标签
  • 提及
  • 保留字(RT,FAV)
  • 表情符号
  • 微笑

支持Python2.7和3.3+

用法

基本清洁:

>>>importpreprocessorasp>>>p.clean('Preprocessor is #awesome ? https://github.com/s/preprocessor')'Preprocessor is'

标记化:

>>>p.tokenize('Preprocessor is #awesome ? https://github.com/s/preprocessor')'Preprocessor is $HASHTAG$ $EMOJI$ $URL$'

解析:

>>>parsed_tweet=p.parse('Preprocessor is #awesome https://github.com/s/preprocessor')<preprocessor.parse.ParseResultinstanceat0x10f430758>>>>parsed_tweet.urls[(25:58)=>https://github.com/s/preprocessor]>>>parsed_tweet.urls[0].start_index25>>>parsed_tweet.urls[0].match'https://github.com/s/preprocessor'>>>parsed_tweet.urls[0].end_index58

完全可定制:

>>>p.set_options(p.OPT.URL,p.OPT.EMOJI)>>>p.clean('Preprocessor is #awesome ? https://github.com/s/preprocessor')'Preprocessor is #awesome'

默认情况下,预处理器将遍历所有选项,除非您指定了某些选项。

可用选项:

Option NameOption Short Code
URL^{}
Mention^{}
Hashtag^{}
Reserved Words^{}
Emoji^{}
Smiley^{}
Number^{}

安装

使用pip:

$ pip install tweet-preprocessor

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空字符串检查在java中未按预期工作   JavaSpringWebClient:自动计算主体的HMAC签名并将其作为头传递   foreach是否有一个Java等效的foreach循环和一个引用变量?   java如何在Eclipse中导入jar   使用特定第三方或java时lombok触发错误。*方法或构造函数   安卓 java将对象数组转换为int数组   java使一定百分比的JUnit测试通过   java Android:将Seekbar的一个值与另一个值进行比较   java将int数组(图像数据)写入文件的最佳方式是什么   java取代了系统。yml的构造函数内的getProperty   sqlite Java将公钥和私钥转换为字符串,然后再转换回字符串   安卓获取白色像素并将其保存到java opencv中的数组中   java为什么是ServerSocket。setSocketFactory静态?   Java数组似乎在不直接修改的情况下更改值