全球最常用语言和社交媒体文本的标记器,如Facebook、Twitter等。

polyglot-tokenizer的Python项目详细描述


全球最常用语言和社交媒体文本的标记器,如Facebook、Twitter等。

安装

pip install polyglot-tokenizer

示例

在python中

>>>from__future__importunicode_literals>>>frompolyglot_tokenizerimportTokenizer>>>tk=Tokenizer(lang='en',smt=True)#smt is a flag for social-media-text>>>text="RT @BJP_RSS Crack down on Black money.India slides to 75th slot on Swiss bank money list #ModiForeignAchievements @RituRathaur https://t.c…">>>tk.tokenize(text)['RT','@BJP_RSS','Crack','down','on','Black','money','.','India','slides','to','75th','slot','on','Swiss','bank','money','list','#ModiForeignAchievements','@RituRathaur','https://t.c…']>>>tk=Tokenizer(lang='hi')>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था।")['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।','उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।']>>>tk=Tokenizer(lang='hi',split_sen=True)>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था। फिल्म एक सीन के लिए लियोनार्डो को भैंस का कच्चा लीवर खाना"..." पड़ा था। जबकि असल जिंदगी में वो पूरी तरह शाकाहारी हैं। हालांकि इस सीन के लिए पहले लियोनार्डो को"..." मांस जैसे दिखने वाली चीज दी गई थी, लेकिन उन्हें लगा कि ऐसा करना गलत होगा। फिल्म के लिए इम्पोर्ट"..." की गई चीटियां...")[['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।'],['उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।'],['फिल्म','एक','सीन','के','लिए','लियोनार्डो','को','भैंस','का','कच्चा','लीवर','खाना','पड़ा','था','।'],['जबकि','असल','जिंदगी','में','वो','पूरी','तरह','शाकाहारी','हैं','।'],['हालांकि','इस','सीन','के','लिए','पहले','लियोनार्डो','को','मांस','जैसे','दिखने','वाली','चीज','दी','गई','थी',',','लेकिन','उन्हें','लगा','कि','ऐसा','करना','गलत','होगा','।'],['फिल्म','के','लिए','इम्पोर्ट','की','गई','चीटियां','...']]

从控制台

polyglot-tokenizer --h

usage: polyglot-tokenizer [-h] [-v] [-i] [-s] [-t] [-o] [-l]

Tokenizer for world's most spoken languages


optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit
  -i , --input          <input-file>
  -s, --split-sentences
                        set this flag to apply sentence segmentation
  -t, --social-media-test
                        set this flag if the input file contains social media
                        text like twitter, facebook and whatsapp
  -o , --output         <output-file>
  -l , --language       select language (2 letter ISO-639 code) {hi, ur, bn,
                        as, gu, ml, pa, te, ta, kn, or, mr, cu, myv, nn, yi,
                        ne, bo, br, ks, en, es, ca, cs, de, el, en, fi, da,
                        eu, kok, nb, uz, fr, ga, hu, is, it, lt, lv, nl, pl,
                        pt, ro, ru, sk, bm, yue, mk, ku, sl, sv, zh, et, fo,
                        gl, hsb, af, ar, be, hy, bg, ka, ug, hr, mn, tk, kk,
                        ky, la, no, fa, uk, tl, tr, vi, yo, ko, got, ckb, he,
                        id, sr}

Example ::

polyglot-tokenizer < raw_file.txt -l en -s > tokenized.txt

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java StoredProcedureCall 1x Varchar输出1x游标输出   java StackOverflower运行时错误   算法Java基准测试:确保对象在超出范围后不被重用   java在SpringDataNeo4j中使用RelationshipEntity保存节点的正确方法是什么?   命令行参数设置登录java的属性   Java泛型AnyType,如何允许调用任何方法?   java如何检查Html字符串和字符串   sql如何插入一个日期,然后从java执行的存储过程中向oracle数据库中插入的日期添加小时、分钟和秒   java 安卓 3布局相同的活动   安卓应用程序中的java毕达哥拉斯   使用javaw在批处理文件中运行JAR的服务会在process explorer XYNTService中产生多个java进程   java需要在Derby中编写正确的查询   多线程Java在缓存中为多个线程保存变量   持久化java实体引用问题   java在SpringMVC应用程序中使用本地线程安全吗?   JavaSwing,100个文本字段都有类似的任务,所以我想写一个函数来完成这个任务   java我们在新字符串(“literal”)中放置的字符串文字发生了什么变化;   java注入需要在GUI中使用枚举的对象   在Spark SQL中加载JDBC表时java数据不正确