专注于Twitter的分词/标记化
twokenize的Python项目详细描述
ark twokenize py
这是Twokenize class from ark-tweet-nlp的原始python端口。
它产生的输出与原始的Java标记器几乎相同,除了 很少有不常见的情况。特别是,python不支持partial 正则表达式中的大小写不敏感,这会导致一些标记化 “东方”风格的表情符号的区别,特别是当左右 一半是不同的情况。例如:
Java (original): v.V
Python (port): v . V
这种表情符号似乎很少见。不过,我已经包括 一个特例的修复:
Java (original): o.O
Python (port, w/o fix): o . O
Python (port, w/ fix): o.O
评估
对100万条tweets的比较发现,有83个实例(0.0083%)进行了标记化。 原始java版本和这个python端口不同。差异 主要与上面讨论的表情问题有关,而不是 总的来说,清楚哪个产出更可取。例如:
Text:
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets
Java (original):
Profi t-T aking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets
Python (port):
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets
用法
>>> import twokenize
>>> twokenize.tokenizeRawTweetText("lol ly x0x0,:D")
['lol', 'ly', 'x0x0', ',', ':D']
安装
pip install twokenize