twitter评论的标记器(tweets)
twikenizer的Python项目详细描述
Twikenizer
这个存储库托管tweets的标记器的代码。它的主要目的是识别细微的亵渎,所以它应该 在包含隐藏亵渎的数据(例如“f*ck”)上获得更好的性能。
免责声明:以下段落可能包含亵渎。
说明
python提供了一组用于不同目的的语句标记器:nltk的word标记器、spacy的、scikit learn的默认标记器和 TweetTokenizer等等。除了TweetTokenizer之外,其他所有的标记都忽略了标签,并通过将符号与其他标记分离来提及。 尽管tweetTokenizer考虑twitterdialect,但它无法标记隐藏的细微亵渎。
对于单词f*ck
,考虑的标记是[f, *, ck]
。单词g@y
被标记为[g, @y]
,考虑到
一个标记g
和一个被错误识别的提及@y
。而标签#hash_tag
被正确标记为
[#hash_tag]
,regular标记没有下划线分隔:love_twitter
被标记为['love_twitter']
,而不是['love', '_', 'twitter']
。
Twikenizer的创建是为了能够正确识别隐藏的亵渎文字,考虑到上面详述的功能。应用与距离相关的特征,即对俚语单词应用levenshtein距离,应该使用这个标记器输出更好的结果。
安装
使用pip
pip安装twikenezer
克隆存储库
git克隆https://github.com/Guilherme-Routar/Twikenizer.git
用法
>importtwikenizerastwk>twk=twk.Twikenizer()>tweet='This is an #hashtag'>twk.tokenize(tweet)['This','is','an','#hashtag']
Twikenizer有一个内置函数examplify
,它演示了如何标记不同类型的单词/标记。
>twk.examplify()Generatedtweet###############Tw33t# @dude_really #hash_tag $hit (g@y) retard#d @dude. ?? !?abc %?lol #hateit #hate.it $%&/ f*ck-Generatedtokens################['Tw33t','#','@dude_really','#hash_tag','$hit','(','g','@','y',')','retard#d','@dude','.','?','?','!','?','abc','%','?','lol','#hateit','#hate','.','it','$','%','&','/','f*ck','-']´´´