专注于Twitter的分词/标记化

twokenize的Python项目详细描述


ark twokenize py

这是Twokenize class from ark-tweet-nlp的原始python端口。

它产生的输出与原始的Java标记器几乎相同,除了 很少有不常见的情况。特别是,python不支持partial 正则表达式中的大小写不敏感,这会导致一些标记化 “东方”风格的表情符号的区别,特别是当左右 一半是不同的情况。例如:

Java (original): v.V
Python (port): v . V

这种表情符号似乎很少见。不过,我已经包括 一个特例的修复:

Java (original): o.O
Python (port, w/o fix): o . O
Python (port, w/ fix): o.O

评估

对100万条tweets的比较发现,有83个实例(0.0083%)进行了标记化。 原始java版本和这个python端口不同。差异 主要与上面讨论的表情问题有关,而不是 总的来说,清楚哪个产出更可取。例如:

Text:
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

Java (original):
Profi t-T aking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

Python (port):
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

用法

>>> import twokenize
>>> twokenize.tokenizeRawTweetText("lol ly x0x0,:D")
['lol', 'ly', 'x0x0', ',', ':D']

安装

pip install twokenize

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java OnClick用于ListView中的特定项   java如何多次循环相同的TestNG测试。包括课前和课后   java如何在Codenameone中设置BrowserComponent浏览器窗口大小   java Socketchannel始终为空   java以编程方式向JavaFX WebEngine历史添加新条目   java Hibernate+Spring与Oracle一起使用分层查询(从+连接方式开始)   Java中的安卓 getView和Beacon(Estimote)问题   计时器如何在java中设置暂停选项   java为什么输入1000000000000的输出不正确?   java如何在程序执行期间更改log4j2中的日志记录级别   java阻止代码引发XML异常   未找到媒体类型为application/json的java JAX RS MessageBodyWriter   java如何将BuffereImage中的特定颜色(0xFF00FF)设置为透明?   java如何列出web元素,如果网页中没有特定链接的id,如何单击网页中的特定链接?   在Java中读取txt文件时获取EOFEException   java如何避免为每个视图添加inject方法?   JavaSpringController:Facebook上类似文章的永久链接   java在尝试执行脚本时遇到错误“net.serentiybdd.core.exceptions.serentitymanagedexception:No session ID”