用于utf到wx转换的python库,反之亦然,用于印度语言。

wxconv的Python项目详细描述


Build StatusCoverage StatusCircleCI

用于utf到wx转换的python库,反之亦然,用于印度语言。

安装

pip install wxconv

示例

一。使用文件:

wxconv --f ssf --t intra --n --l hin --s utf --i hin-utf.ssf --o hin-wx.ssf

-l , --language     select language (3 letter ISO-639 code)
                                    Hindi       : hin
                                    Telugu      : tel
                                    Tamil       : tam
                                    Malayalam   : mal
                                    Kannada     : kan
                                    Bengali     : ben
                                    Oriya       : ori
                                    Punjabi     : pan
                                    Marathi     : mar
                                    Nepali      : nep
                                    Gujarati    : guj
                                    Bodo        : bod
                                    Konkani     : kok
                                    Assamese    : asm
                                    Urdu        : urd
-s , --source-enc   {utf, wx} select input-file encoding
-f , --format       {text, ssf, conll, bio, tnt} select input-file format
-t , --ssf-type     {inter, intra} specify ssf-type if file format (-f) is ssf
-n, --nested        set this flag for nested ssf
-m, --no-mask       set this flag to keep off masking of roman strings in Indic text
-i , --input        <input-file>
-o , --output       <output-file>
-z, --normalize     set this flag for utf normalizations without WX-Conversion

2.utf到wx(纯文本):

>>>fromwxconvimportWXC>>>>>># class WXC(order="utf2wx", format_="text", lang="hin")...# Parameters: order:str, (default="utf2wx"), source2target encoding [wx2utf|utf2wx]...#             format_:str, (default="text"), output format [text|conll|bio|tnt]...#             lang:str, (default="hin"), language parameter [hin|tel|...] (3 letter ISO-639 code)>>>con=WXC(order='utf2wx')# here default language is hindi and default format is text>>>>>>hin=u"""
... 1   देश के कई हिस्सों में सूखे के आसार उत्पन्न हो गए हैं
... 2   अब तक मौसम विभाग सामान्य बारिश होने की अपनी भविष्यवाणी पर अड़ा हुआ था लेकिन अब यह दावा पूरी तरह से खारिज हो गया है
... 3   देश भर में अब तक हुई बारिश औसत से छह फीसदी कम है जबकि विभाग का दावा था कि इसमें ५ फीसदी से ज्यादा कमी नहीं होगी
... 4   इसके चलते उत्तर प्रदेश पंजाब हरियाणा राजस्थान बिहार झारखंड आदि राज्य लगभग सूखे की चपेट में हैं
... 5   लेकिन तकनीकी कारणों से इन्हें अभी सूखाग्रस्त घोषित नहीं किया गया है
... """>>>>>>print(con.convert(hin))1xeSakekaIhissoMmeMsUKekeAsArauwpannahogaehEM2abawakamOsamaviBAgasAmAnyabAriSahonekIapanIBaviRyavANIparaadZAhuAWAlekinaabayahaxAvApUrIwarahaseKArijahogayAhE3xeSaBarameMabawakahuIbAriSaOsawaseCahaPIsaxIkamahEjabakiviBAgakAxAvAWAkiisameM5PIsaxIsejyAxAkamInahIMhogI4isakecalaweuwwarapraxeSapaMjAbahariyANArAjasWAnabihAraJAraKaMdaAxirAjyalagaBagasUKekIcapetameMhEM5lekinawakanIkIkAraNoMseinheMaBIsUKAgraswaGoRiwanahIMkiyAgayAhE>>>tel=u"""
... 1   తమ 35 ఏళ్ల పెళ్లి సందర్భంలోనూ - అనుక్షణం శత్రువులకు మల్లే కాట్లాడుకోవటం బంటీకి నచ్చదు.
... 2   2007లో అజ్మీర్‌లోని ఖాజా మొయినుద్దీన్ చిష్తీ దర్గాలో జరిగిన పేలుడులో ముగ్గురు చనిపోగా, మరో 15 మంది గాయపడిన విషయం తెలిసిందే.
... 3   గణితం లాంటి విషయం గురించి బ్లాగులు, వీకేల ద్వారా చర్చలు జరగవచ్చునని అందరికీ అర్థమయింది.
... 4   ఇలా ఇంత పోటీలో, యాంటీ బ్రిటిష్ వాతావరణంలోను 155 నిముషాల నిడివిగల ‘హామ్లెట్’ నిలిచి గెలిచిందంటే అది దాని చక్కదనానికి నిదర్శనమే!
... 5   అవకాశం వచ్చిన వారికి ఎక్స్‌పోజర్‌కూడా వస్తుంది.
... """>>>>>>con=WXC(order='utf2wx',lang='tel')>>>>>>print(con.convert(tel))1wama35elYlapeVlYlisaMxarBaMlonU-anukRaNaMSawruvulakumallekAtlAdukovataMbaMtIkinaccaxu.22007loajmIrloniKAjAmoVyinuxxInciRwIxargAlojariginapeludulomuggurucanipogA,maro15maMxigAyapadinaviRayaMweVlisiMxe.3gaNiwaMlAMtiviRayaMguriMciblAgulu,vIkelaxvArAcarcalujaragavaccunaniaMxarikIarWamayiMxi.4ilAiMwapotIlo,yAMtIbritiRvAwAvaraNaMlonu155nimuRAlanidivigalahAmleVtnilicigeVliciMxaMteaxixAnicakkaxanAnikinixarSaname!5avakASaMvaccinavArikieVkspojarkUdAvaswuMxi.>>>

三。WX至UTF:

>>>con=WXC(order='wx2utf',lang='hin')>>>>>>hin="""
... 1   xeSa ke kaI hissoM meM sUKe ke AsAra uwpanna ho gae hEM
... 2   aba waka mOsama viBAga sAmAnya bAriSa hone kI apanI BaviRyavANI para adZA huA WA lekina aba yaha xAvA pUrI waraha se KArija ho gayA hE
... 3   xeSa Bara meM aba waka huI bAriSa Osawa se Caha PIsaxI kama hE jabaki viBAga kA xAvA WA ki isameM 5 PIsaxI se jyAxA kamI nahIM hogI
... 4   isake calawe uwwara praxeSa paMjAba hariyANA rAjasWAna bihAra JAraKaMda Axi rAjya lagaBaga sUKe kI capeta meM hEM
... 5   lekina wakanIkI kAraNoM se inheM aBI sUKAgraswa GoRiwa nahIM kiyA gayA hE
... """>>>>>>print(con.convert(hin))1देशकेकईहिस्सोंमेंसूखेकेआसारउत्पन्नहोगएहैं2अबतकमौसमविभागसामान्यबारिशहोनेकीअपनीभविष्यवाणीपरअड़ाहुआथालेकिनअबयहदावापूरीतरहसेखारिजहोगयाहै3देशभरमेंअबतकहुईबारिशऔसतसेछहफीसदीकमहैजबकिविभागकादावाथाकिइसमें5फीसदीसेज्यादाकमीनहींहोगी4इसकेचलतेउत्तरप्रदेशपंजाबहरियाणाराजस्थानबिहारझारखंडआदिराज्यलगभगसूखेकीचपेटमेंहैं5लेकिनतकनीकीकारणोंसेइन्हेंअभीसूखाग्रस्तघोषितनहींकियागयाहै>>>

四。与conll合作:

>>>con=WXC(order='utf2wx',lang='hin',format_='conll')>>>>>>conll=u"""
... 1       इसकी     यह      pn      PRP     cat-pn|gen-f|num-sg|pers-3|case-o|vib-का|tam-kA|chunkId-NP|chunkType-head|stype-|voicetype-      2     r6      _       _
... 2       ऊँचाई     ऊँचाई     n       NN      cat-n|gen-f|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP2|chunkType-head|stype-|voicetype-       6     k1      _       _
... 3       केवल     केवल     avy     RP      cat-avy|gen-|num-|pers-|case-|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-   4       lwg__rp _       _
... 4       1982    1982    num     QC      cat-num|gen-any|num-any|pers-|case-any|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-  5       nmod__adj       _       _
... 5       मीटर     मीटर     n       NN      cat-n|gen-m|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP3|chunkType-head|stype-|voicetype-       6     k1s     _       _
... 6       है       है       v       VM      cat-v|gen-any|num-sg|pers-3|case-|vib-है|tam-hE|chunkId-VGF|chunkType-head|stype-declarative|voicetype-active    0       root    _       _
... 7       ।       ।       punc    SYM     cat-punc|gen-|num-|pers-|case-|vib-|tam-|chunkId-BLK|chunkType-head|stype-|voicetype-   6       rsym    _       _""">>>>>>print(con.convert(conll))1isakIyahapnPRPcat-pn|gen-f|num-sg|pers-3|case-o|vib-kA|tam-kA|chunkId-NP|chunkType-head|stype-|voicetype-2r6__2UzcAIUzcAInNNcat-n|gen-f|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP2|chunkType-head|stype-|voicetype-6k1__3kevalakevalaavyRPcat-avy|gen-|num-|pers-|case-|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-4lwg__rp__419821982numQCcat-num|gen-any|num-any|pers-|case-any|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-5nmod__adj__5mItaramItaranNNcat-n|gen-m|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP3|chunkType-head|stype-|voicetype-6k1s__6hEhEvVMcat-v|gen-any|num-sg|pers-3|case-|vib-hE|tam-hE|chunkId-VGF|chunkType-head|stype-declarative|voicetype-active0root__7..puncSYMcat-punc|gen-|num-|pers-|case-|vib-|tam-|chunkId-BLK|chunkType-head|stype-|voicetype-6rsym__>>>

5个。与TNT合作:

>>>tnt=u"""
... यों       RB
... सिंगल     JJ
... स्क्रीन    NNC
... थिएटर    NNP
... के       PSP
... दर्शकों    NN
... को       PSP
... अग्निपथ   NNP
... अधिक     QF
... नहीं      NEG
... भा       VM
... सकी      VAUX
... ।       SYM
... """>>>>>>con=WXC(order='utf2wx',lang='hin',format_='tnt')>>>>>>print(con.convert(tnt))yoMRBsiMgalaJJskrInaNNCWietaraNNPkePSPxarSakoMNNkoPSPagnipaWaNNPaXikaQFnahIMNEGBAVMsakIVAUX.SYM>>>

6.使用bio:

same as tnt or conll

7号。使用ssf:

implemented for ssf files (intra, inter and nested)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Synth外观和感觉什么都不做?   java为什么JavaFX在使用文本组件时会在字母之间添加额外的间距?我该如何修复它?   java四位数字程序:分组数字   java我应该如何创建这个新页面?JSP还是servlet?   java将hashmap作为avalue添加到hashmap中   java如何使xmemcached更快   一个流中的java筛选器和set()   EJB模块和HTTP路由器模块之间的java通用绑定   java线程处理多个rest调用   java什么是运算符重载,它与多态性不同吗?   java投票系统错误