Python twokenize包_程序模块 - PyPI

专注于Twitter的分词/标记化

twokenize的Python项目详细描述

ark twokenize py

这是Twokenize class from ark-tweet-nlp的原始python端口。

它产生的输出与原始的Java标记器几乎相同，除了很少有不常见的情况。特别是，python不支持partial 正则表达式中的大小写不敏感，这会导致一些标记化 “东方”风格的表情符号的区别，特别是当左右一半是不同的情况。例如：

Java (original): v.V
Python (port): v . V

这种表情符号似乎很少见。不过，我已经包括一个特例的修复：

Java (original): o.O
Python (port, w/o fix): o . O
Python (port, w/ fix): o.O

评估

对100万条tweets的比较发现，有83个实例（0.0083%）进行了标记化。原始java版本和这个python端口不同。差异主要与上面讨论的表情问题有关，而不是总的来说，清楚哪个产出更可取。例如：

Text:
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

Java (original):
Profi t-T aking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

Python (port):
Profit-Taking Hits Nikkei http://t.co/hVWpiDQ1 http://t.co/xJSPwE2z RT @WSJmarkets

用法

>>> import twokenize
>>> twokenize.tokenizeRawTweetText("lol ly x0x0,:D")
['lol', 'ly', 'x0x0', ',', ':D']

安装

pip install twokenize

欢迎加入QQ群-->： 979659372

twokenize 1.0.0

twokenize的Python项目详细描述

ark twokenize py

评估

用法

安装

推荐PyPI第三方库

mac_alias

atd-args-util

pyzfs

evfuncs

talke

ddtrace-graphql

django-committees

thornbed

simpleplotdigitizer

django-backupdb

cellp

game-starter

replace_me

pylpconcat

rewrapped

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

twokenize 1.0.0

twokenize的Python项目详细描述

ark twokenize py

评估

用法

安装

推荐PyPI第三方库

mac_alias

atd-args-util

pyzfs

evfuncs

talke

ddtrace-graphql

django-committees

thornbed

simpleplotdigitizer

django-backupdb

cellp

game-starter

replace_me

pylpconcat

rewrapped

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签