twitter评论的标记器(tweets)

twikenizer的Python项目详细描述


Twikenizer

这个存储库托管tweets的标记器的代码。它的主要目的是识别细微的亵渎,所以它应该 在包含隐藏亵渎的数据(例如“f*ck”)上获得更好的性能。

免责声明:以下段落可能包含亵渎。

说明

python提供了一组用于不同目的的语句标记器:nltk的word标记器、spacy的、scikit learn的默认标记器和 TweetTokenizer等等。除了TweetTokenizer之外,其他所有的标记都忽略了标签,并通过将符号与其他标记分离来提及。 尽管tweetTokenizer考虑twitterdialect,但它无法标记隐藏的细微亵渎。

对于单词f*ck,考虑的标记是[f, *, ck]。单词g@y被标记为[g, @y],考虑到 一个标记g和一个被错误识别的提及@y。而标签#hash_tag被正确标记为 [#hash_tag]regular标记没有下划线分隔:love_twitter被标记为['love_twitter'],而不是['love', '_', 'twitter']

Twikenizer的创建是为了能够正确识别隐藏的亵渎文字,考虑到上面详述的功能。应用与距离相关的特征,即对俚语单词应用levenshtein距离,应该使用这个标记器输出更好的结果。

安装

使用pip

pip安装twikenezer

克隆存储库

git克隆https://github.com/Guilherme-Routar/Twikenizer.git

用法

>importtwikenizerastwk>twk=twk.Twikenizer()>tweet='This is an #hashtag'>twk.tokenize(tweet)['This','is','an','#hashtag']

Twikenizer有一个内置函数examplify,它演示了如何标记不同类型的单词/标记。

>twk.examplify()Generatedtweet###############Tw33t# @dude_really #hash_tag $hit (g@y) retard#d @dude. ?? !?abc %?lol #hateit #hate.it $%&/ f*ck-Generatedtokens################['Tw33t','#','@dude_really','#hash_tag','$hit','(','g','@','y',')','retard#d','@dude','.','?','?','!','?','abc','%','?','lol','#hateit','#hate','.','it','$','%','&','/','f*ck','-']´´´

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使Eclipse在其控制台中显示最顶层的异常,而不是完整的堆栈跟踪   java如何为一个组件提供多个DropTargetListener?   在Eclipse包资源管理器中,有些文件不可见?   java在Spring Boot中使用@Bean配置设置类属性的默认值   在JTextPane中使用#链接的Java HTML?   java当应用程序打开时,如何将通知内容发送给活动?   java Android ROOM如何编写包含多个实体的查询,这是在哪里完成的?   Play Framework的java登录/注销问题?   java如何从安卓 Cordova/Phonegap调用javascript函数   JavaFX8如何在Java8中显示上次修改的LocalDateTime?   javabean验证中的多个约束注释   java使用JSTL设置请求属性   java在Android启动的服务中调用函数   用于检查xml是否包含键和值的java XPath表达式   在java游戏中使用斜坡因子挥杆   Java文件:尝试使用FileWriter将结果附加到已经存在的文件中   bootclasspath Java Xbootclasspath,相对路径   java我如何让这个“怪物战斗模拟器”工作?   swing使用动作侦听器隐藏和显示java桌面应用程序